論文・技術文書を読むためのAI自動マーカー Keyphrase
要約を読んだ「その先」がほしい
きょうびは、ペーパーを読むとき、まずAIで要約を作ってから、本文を読み始めるのが普通かもしれません。
でも、翻訳ツールを使ってみても 日本語訳でも意外と頭に入ってこない という経験、ありませんか?
自分の場合、やっぱり「手でマーカーを引きながら読む」のが一番しっくり来るのですが、
物理的に印刷したり、PDFリーダーで手作業で色付けしたりするのは面倒・・・。
この悩み、最近のLLM(大規模言語モデル)とローカルAI推論ツール「Ollama」を組み合わせれば解決できるはず。
・・・と思い立ったが吉日。
さっそく、Keyphraseというツールを作ってみました。
Keyphrase って?
- PDFやMarkdownから、AIで重要文・キーフレーズを自動検出
- 検出された部分を、「貢献・アプローチ」「実験」「制約・問題点・妥当性の驚異」ごとに色分けハイライト
- 未発表のペーパーでも、社外秘のテキストでもOK。全処理がローカル(Ollama利用、データは外部送信されません)
実際の出力例:
- → 英語論文の例
- → 研究会の技報(日本語)
※ v0.3.6より配色が変更になったので「制約・問題点・妥当性の驚異」は上の例で黄色ですが、手元で実行するとピンク色のマーカーになります。
インストール・セットアップ
1. pipxでKeyphrase本体をインストール
pipx install https://github.com/tos-kamiya/keyphrase
(pipx
が未導入なら → python -m pip install --user pipx
)
2. Ollamaを導入(公式手順どおり)とモデルのダウンロード
Ollama公式サイト からローカルPCにインストールして「ollama」が動くようにしておきます。
さらに、下記コマンドでモデルをダウンロード:
ollama pull qwen3:30b-a3b
使い方:PDFもMarkdownも1コマンド
論文PDFを色分けしたい場合:
keyphrase mypaper.pdf
Markdownファイルも同様:
keyphrase mynotes.md
出力ファイルは、out.pdf
あるいは out.md
です。
オプション -O
をつけると、入力ファイルの末尾に -annotated
をつけた、 〜-annotated.pdf
や 〜-annotated.md
となります。
3色に色分けされてるけど?
色の意味は次のとおり。「どこが新規性?」「どの部分が実験?」をざっと把握できます。
- 青色 … 提案手法・主要アイデア
- 緑色 … 実験や評価
- ピンク色 … 制約・問題点・妥当性の脅威(v0.3.6+)
オプション --color-map
により、配色を変更できるので、PDFビューアのハイライトと色がぶつかるといった状況でご利用ください(v0.3.6+)
例えば、--color-map threats:#ff0000ff
で、「制約・問題点・妥当性の驚異」を赤の不透明色の背景にします。
おわりに
もっと詳細を知りたい、コードを見たいという方は、ぜひ GitHubリポジトリ tos-kamiya/keyphrase をつついてみてください。
それでは、みなさま
🎉📖ハッピー輪講ライフ📖🎉
をお過ごしください!
Discussion