🎓

論文・技術文書を読むためのAI自動マーカー Keyphrase

に公開

要約を読んだ「その先」がほしい

きょうびは、ペーパーを読むとき、まずAIで要約を作ってから、本文を読み始めるのが普通かもしれません。

でも、翻訳ツールを使ってみても 日本語訳でも意外と頭に入ってこない という経験、ありませんか?

自分の場合、やっぱり「手でマーカーを引きながら読む」のが一番しっくり来るのですが、
物理的に印刷したり、PDFリーダーで手作業で色付けしたりするのは面倒・・・。

この悩み、最近のLLM(大規模言語モデル)とローカルAI推論ツール「Ollama」を組み合わせれば解決できるはず。

・・・と思い立ったが吉日。

さっそく、Keyphraseというツールを作ってみました。

Keyphrase って?

  • PDFやMarkdownから、AIで重要文・キーフレーズを自動検出
  • 検出された部分を、「貢献・アプローチ」「実験」「制約・問題点・妥当性の驚異」ごとに色分けハイライト
  • 未発表のペーパーでも、社外秘のテキストでもOK。全処理がローカル(Ollama利用、データは外部送信されません)

実際の出力例:

※ v0.3.6より配色が変更になったので「制約・問題点・妥当性の驚異」は上の例で黄色ですが、手元で実行するとピンク色のマーカーになります。

インストール・セットアップ

1. pipxでKeyphrase本体をインストール

pipx install https://github.com/tos-kamiya/keyphrase

pipxが未導入なら → python -m pip install --user pipx

2. Ollamaを導入(公式手順どおり)とモデルのダウンロード

Ollama公式サイト からローカルPCにインストールして「ollama」が動くようにしておきます。

さらに、下記コマンドでモデルをダウンロード:

ollama pull qwen3:30b-a3b

使い方:PDFもMarkdownも1コマンド

論文PDFを色分けしたい場合:

keyphrase mypaper.pdf

Markdownファイルも同様:

keyphrase mynotes.md

出力ファイルは、out.pdf あるいは out.md です。

オプション -O をつけると、入力ファイルの末尾に -annotated をつけた、 〜-annotated.pdf〜-annotated.md となります。

3色に色分けされてるけど?

色の意味は次のとおり。「どこが新規性?」「どの部分が実験?」をざっと把握できます。

  • 青色 … 提案手法・主要アイデア
  • 緑色 … 実験や評価
  • ピンク色 … 制約・問題点・妥当性の脅威(v0.3.6+)

オプション --color-mapにより、配色を変更できるので、PDFビューアのハイライトと色がぶつかるといった状況でご利用ください(v0.3.6+)

例えば、--color-map threats:#ff0000ff で、「制約・問題点・妥当性の驚異」を赤の不透明色の背景にします。

おわりに

もっと詳細を知りたい、コードを見たいという方は、ぜひ GitHubリポジトリ tos-kamiya/keyphrase をつついてみてください。

それでは、みなさま

🎉📖ハッピー輪講ライフ📖🎉

をお過ごしください!

Discussion