AIエージェントをコスパよく動かす法
本記事では、AIエージェントを実装する開発者向けに、回答精度を上げるための手法について、ざっくり解説します。
株式会社ナレッジセンスは、「エンタープライズ企業の膨大なデータを掘り起こし、活用可能にする」プロダクトを開発しているスタートアップです。
この記事は何
この記事は、AIエージェントのコスト効率を分析した論文「Rerank Before You Reason」[1]について、日本語で簡単にまとめたものです。
今回も「そもそもAIエージェントとは?」については、知っている前提で進みます(参考)。
本題
ざっくりサマリー
「Rerank Before You Reason」は、AIエージェントの精度を、コスパよく上げるための手法です。ウォータールー大学の研究者らによって2026年1月に発表されました。

AIエージェントは、とにかくトークンを消費します。AIエージェントの「精度を上げたい」となった場合、通常は「検索回数を増やす」のが定石です。しかし、検索回数を増やしてしまうと、ますますトークンが消費され、お金がかかります。
そこで、この論文では「検索回数は変えず、毎度リランキングをする」ことを提案しています。
これにより、AIエージェントの料金を増やすことなく、精度を向上させることが可能になります。
問題意識
Deep Researchのような「繰り返し検索するAIエージェント」 には、コスト面での課題があります。
こうしたエージェントでは、精度を上げるために「推論量」を増やすことが一般的です。例えば、OpenAIのo1やo3のような推論モデルでは、「より長く考えさせる」というアプローチで大幅な精度向上を達成してきた歴史があります。
ただ、推論トークンは非常にお金がかかります。入力トークンに比べて、出力トークンは3〜7倍のコストが一般的です。
そこで、「推論を増やす」以外の方法で、精度を上げられないか? という課題が重要になってきます。[2]
手法
この論文の手法は、「エージェントが検索してきた大量の文書を、都度都度、整理してあげよう」という手法です。「この文書は読まなくていいでしょ」というような、要らない文書を定期的に削除してあげる仕組みです。これにより、AIエージェントは、より、良質な情報に基づいて意思決定できるようになります。

具体的な手法は以下です↓
【ユーザーが質問を入力して来たとき】
AIエージェントが稼働開始します。
-
文書を多めに検索
- ユーザーのクエリに基づいて検索
- この際、通常より多め(10〜50件くらい)の検索結果を取得
-
リランキング
- リランキングモデル[3]を使って、1を重要度順に並び替え
- エージェントは上位5件だけを読む
- (→この処理により、本当に関連性の高い文書だけを厳選)
-
繰り返し推論
- エージェントは高品質な情報だけをもとに、深く思考
この手法のキモは、エージェントの「推論」を増やすのではなく、エージェントに渡す「情報の質」を上げていることです。普通、エージェントを起動したら、「回答が来るまでエージェント任せ(=放置)」になりがちですが、そこにちゃんとテコ入れしています。
成果

- リランキングを入れると、検索品質(Recall@5/10、NDCG@5/10)が一貫して改善
- 同じ精度を、大幅に低いトークンコストで達成可能(例:「高推論モード」と「低推論+リランキング」で同等精度だが、後者の方がETC[4]が大幅に低い)
- 小さいモデル(20B)+リランキングが、大きいモデル(120B)+リランキングなしを上回ることもある
リランキングを入れると回答速度は遅くなりがちなので、そこは課題に見えますが、Deep Researchであればそもそも回答は遅い前提なので、そこまで大きなデメリットではありません。
まとめ
弊社では普段、エンタープライズ企業向けにRAGサービスを提供しています。
エンタープライズRAGでは、回答精度をコスト(お金)を、どのようにバランスするか、ということが、非常に重要です。
正直なところ、通常、AIエージェントを作っている人は、推論中の動作にテコ入れしません。「AIエージェントは作った。あとはエージェントが頑張れ。」という状態の人、結構多いはずです...(笑)
ただ、今回の手法のように、「むやみに思考回数を増やさず、ソースの質を上げる」のはとてもいいアプローチに感じました。AIエージェントも、結局はRAGの繰り返しなので、今後も検索技術・RAG技術の勉強は大切になりそうです。
ぜひ、みなさまが業務でRAGシステムを構築する際も、選択肢として参考にしていただければ幸いです。今後も、RAGの回答精度を上げるような工夫や研究について、記事にしていこうと思います。我々が開発しているサービスはこちら。
-
"Rerank Before You Reason: Analyzing Reranking Tradeoffs through Effective Token Cost in Deep Search Agents", Sharifymoghaddam et al. ↩︎
-
ちなみに最近、「AIエージェントの推論中の動きよくわからない」→「そうだ!見直そう or 可視化しよう or 分析しよう」系の研究が、かなり増えてきているように感じます。 ↩︎
-
この論文では、リランカーとしてOpenAIの「gpt-oss-20b」「gpt-oss-120b」を使っています(RankLMというフレームワークを活用)。Reasoningの深さをLowで設定して利用してます ↩︎
-
この論文では「コスパ」を正確に測るために、ETC(Effective Token Cost) という指標を導入しています。単に「トークン」といっても「入力なのか・出力なのか・キャッシュなのか」で変わってくるため重み付けしています。 ↩︎
Discussion