🔬

ar5iv(arXivの論文をhtml5で提供するサービス)の紹介とブラウザ拡張

2022/02/19に公開

記事の要約

arXivとは

arXivという査読前の論文が投稿されるサイトがあります。
査読前なので信頼性に欠ける可能性がありますが、最新情報が得られるので皆さん利用されていると思います。
上述のarXivでは基本、論文はPDFで提供されます。
PDFは印刷した際の内容がそのまま表示されますが、以下のデメリットがあります。

PDFという形式の難点

スマホで読めない(文字が小さい)

A4サイズでの表示を前提としているのでスマホだと読むのがキツイです。

自然言語処理しにくい

PDFはブロック情報を持たないです。1行は1行としてデータを持っています。なので例えば英語であれば行末にスペースがあると文章が繋がってしまいます。

  • This is a pen.
  • This is apen.

の、aとpenの間で改行があると、This is apenとなってしまいます。行末にデリミタ(ピリオド)がある場合等の場合分け、処理を入れたりして解消できますが、デリミタでないピリオドもあったりして言語処理側に負荷がかかります。レイアウト問題(ダブルカラムの場合がキツイ)もあります。それだけで1つの研究領域になったりしてたはずです。

ar5ivとは

ar5ivはPDFではなくhtml5でarXivの論文を用意してくれてるサービスです。

スマホでも文章が回り込んでくれますし、ダークモードでも読めたりします。

公式にも書かれていますが、アドレスのarxivのxを5に変えることでhtml5の記事にアクセスできます。

Sample: A Simple Proof of the Quadratic Formula (1910.06709)

https://arxiv.org/abs/1910.06709
https://ar5iv.org/abs/1910.06709

arXivの論文はtex(構造データを有するオリジナルファイル)で提供されているものもあり、そちらを予めhtml5に変換し、自サーバーに置いている運用のようです。ゆくゆくはarXiv自身に正式採用してもらうのが目標のようです。なおコードはRustで書かれているようです。

ブラウザ拡張を作った件

拡張概要

アドレスのarXivar5ivに変えるだけですが、いちいちアドレスバーに打ち込むのは面倒なのでブラウザ拡張を作成しました。
ソースはこちらです。texソースがある記事の横に「or ar5iv」というリンクを生成しています。

arXivのサイトをブラウズしながらリンクが存在したらクリックしてar5ivを読みに行くという運用です。

ストア登録

AndroidでChrome拡張(KiwiBrowser)

Chrome拡張はPCはそのまま動きますがiOS, AndroidのChromeでは動きません。しかしAndroid側はKiwi BrowserというChromiumベースのブラウザだとChrome拡張が動きます。私はKiwi Browserを普段遣いしています。

これで通勤、通学でもarXivを気楽に読めますね。iOSも上のようにSafari拡張として対応できました(20220223追記)

まとめ

ar5ivの今後の活動に期待です。まだ文字化けがあったりといった課題が残っていますが中の人は精力的に活動されています。Twitterにいらっしゃいます。

上記はスマホで読みやすくなる点にフォーカスしましたが、自然言語処理の文脈でも大きく貢献すると見ています。素材としてもそうですし、翻訳サービス(DeepLなど)などと連携すると面白いことになりそうです。

(追記20220222)公式の公認、共同開発が決まった模様

公式の公認、共同開発が決まった模様です。公式にhtml5が準備される未来が既定路線に入った感じですね。
なお、ブラウザ拡張は当面は持ってたほうが良いとのことなので維持します。

(追記20220223)Safari拡張がappストアに置かれました

iOSのSafari拡張がappストアに置かれました。iPhone、iPadで読めます。
現状は2022年1月以前のものがhtml5
としてリンクが存在します。存在しない場合はarXiv
にリダイレクトされる仕様のようです。

公式公認となったことで時間差なくなりそうですが現状は上の状態です。

Discussion