arXivのトレンドワードをSlack投稿!(論文サーチをもっと楽に!!)

2 min読了の目安(約1900字TECH技術記事

はじめに

みなさん、最近のトレンドを論文から知りたいな~というときどうしていますか?
論文を片っ端から読み漁ることができたらそれが理想ですが、論文数は毎日大量に発表されるし、どれを追えばいいのか......
ということで、arXivで発表されている最近の論文からキーワードを分析し、トレンドワードをslackに投稿する機能を作ってみました!

完成例(このようにSlackに投稿します!)

上から順にトレンドワードベスト15を投稿しています!(CS.AIカテゴリー内)
image.png

作成の流れ

  1. arXiv API で論文情報を取得
  2. TF-IDFを用い、トレンドワードを取得
  3. IFTTTを用いて、webhooks経由でslackへ投稿
    今回は、カテゴリー「CS(Computer Science)」の中でtf-idfで取得した上位の単語をトレンドワードと定義し、CS.AIのトレンドワードを表示するものを作成します!

image.png

1. arXiv API で論文情報を取得

今回取得する論文としては、arXivが取得することにしました!
理由は、主に2点です。

  • 論文としての情報が早い(トレンド性が高い)
  • APIが整っているため、データを取得しやすい

arXivAPIでは多くのデータが取得できますが、今回用いるのは、Abstractの文章からトレンドワードを分析していきます!

2. TF-IDFを用い、トレンドワードを取得

今回は、CSのカテゴリーについて、TF-IDFを行いました。ちなみに、CSのサブカテゴリーいくつあるか知ってますか?(著者は数えたことなかったのですが、想像以上でした……)

なんと、40カテゴリー!!
これだけのカテゴリーをイチから見て行っては日どころか年も暮れてしまいますよね(笑)
この事実を知り、より一層この分析を完成させたくなりました!

(参考)
CSのカテゴリー一覧

3. IFTTTを用いて、webhooks経由でslackは投稿

IFTTTを用いて、プログラミング上でリクエストを送るのをトリガーにして、リクエストを受け取ったらSlack へ投稿する仕組みにしている。(結構シンプルな作りで作れるので便利です!)
image.png

完成

この3ステップで、arXivのトレンドワードをSlackに投稿することができました!
 下の写真は、上の完成例とは別の日のトレンドワードです。
image.png

おわりに

Slackを見るだけで、最近多く出ている論文のテーマは何かな~というのがわかると便利ですよね。論文を読み漁り続けるのは、難しくてこの投稿をチェックするだけならハードルも下がる!と思うので、著者も定期的な情報キャッチアップツールとして使えたらと思っています。
 今回、作成した機能は実際に東海人工知能研究会(TAIR)のSlackで実装しています!学部生・院生で興味のある人がいれば招待できればと思うので、twitterからフォロー+DMでご連絡ください!

※東海人工知能研究会(TAIR)は、東海地区を中心にAI・機械学習に興味のある学生のためのコミュニティです。