💰

AIエージェントをコスパよく動かす法

に公開

本記事では、AIエージェントを実装する開発者向けに、回答精度を上げるための手法について、ざっくり解説します。

株式会社ナレッジセンスは、「エンタープライズ企業の膨大なデータを掘り起こし、活用可能にする」プロダクトを開発しているスタートアップです。

この記事は何

この記事は、AIエージェントのコスト効率を分析した論文「Rerank Before You Reason」[1]について、日本語で簡単にまとめたものです。
https://arxiv.org/abs/2601.14224

今回も「そもそもAIエージェントとは?」については、知っている前提で進みます(参考)。

本題

ざっくりサマリー

「Rerank Before You Reason」は、AIエージェントの精度を、コスパよく上げるための手法です。ウォータールー大学の研究者らによって2026年1月に発表されました。

AIエージェントをコスパよく動かす法

AIエージェントは、とにかくトークンを消費します。AIエージェントの「精度を上げたい」となった場合、通常は「検索回数を増やす」のが定石です。しかし、検索回数を増やしてしまうと、ますますトークンが消費され、お金がかかります。

そこで、この論文では「検索回数は変えず、毎度リランキングをする」ことを提案しています。

これにより、AIエージェントの料金を増やすことなく、精度を向上させることが可能になります。

問題意識

Deep Researchのような「繰り返し検索するAIエージェント」 には、コスト面での課題があります。

こうしたエージェントでは、精度を上げるために「推論量」を増やすことが一般的です。例えば、OpenAIのo1やo3のような推論モデルでは、「より長く考えさせる」というアプローチで大幅な精度向上を達成してきた歴史があります。

ただ、推論トークンは非常にお金がかかります。入力トークンに比べて、出力トークンは3〜7倍のコストが一般的です。

そこで、「推論を増やす」以外の方法で、精度を上げられないか? という課題が重要になってきます。[2]

手法

この論文の手法は、「エージェントが検索してきた大量の文書を、都度都度、整理してあげよう」という手法です。「この文書は読まなくていいでしょ」というような、要らない文書を定期的に削除してあげる仕組みです。これにより、AIエージェントは、より、良質な情報に基づいて意思決定できるようになります

AIエージェントをコスパよく動かす法

具体的な手法は以下です↓
【ユーザーが質問を入力して来たとき】
AIエージェントが稼働開始します。

  1. 文書を多めに検索

    • ユーザーのクエリに基づいて検索
    • この際、通常より多め(10〜50件くらい)の検索結果を取得
  2. リランキング

    • リランキングモデル[3]を使って、1を重要度順に並び替え
    • エージェントは上位5件だけを読む
    • (→この処理により、本当に関連性の高い文書だけを厳選)
  3. 繰り返し推論

    • エージェントは高品質な情報だけをもとに、深く思考

この手法のキモは、エージェントの「推論」を増やすのではなく、エージェントに渡す「情報の質」を上げていることです。普通、エージェントを起動したら、「回答が来るまでエージェント任せ(=放置)」になりがちですが、そこにちゃんとテコ入れしています。

成果

  • リランキングを入れると、検索品質(Recall@5/10、NDCG@5/10)が一貫して改善
  • 同じ精度を、大幅に低いトークンコストで達成可能(例:「高推論モード」と「低推論+リランキング」で同等精度だが、後者の方がETC[4]が大幅に低い)
  • 小さいモデル(20B)+リランキングが、大きいモデル(120B)+リランキングなしを上回ることもある

リランキングを入れると回答速度は遅くなりがちなので、そこは課題に見えますが、Deep Researchであればそもそも回答は遅い前提なので、そこまで大きなデメリットではありません。

まとめ

弊社では普段、エンタープライズ企業向けにRAGサービスを提供しています。

エンタープライズRAGでは、回答精度をコスト(お金)を、どのようにバランスするか、ということが、非常に重要です。

正直なところ、通常、AIエージェントを作っている人は、推論中の動作にテコ入れしません。「AIエージェントは作った。あとはエージェントが頑張れ。」という状態の人、結構多いはずです...(笑)

ただ、今回の手法のように、「むやみに思考回数を増やさず、ソースの質を上げる」のはとてもいいアプローチに感じました。AIエージェントも、結局はRAGの繰り返しなので、今後も検索技術・RAG技術の勉強は大切になりそうです。

ぜひ、みなさまが業務でRAGシステムを構築する際も、選択肢として参考にしていただければ幸いです。今後も、RAGの回答精度を上げるような工夫や研究について、記事にしていこうと思います。我々が開発しているサービスはこちら

脚注
  1. "Rerank Before You Reason: Analyzing Reranking Tradeoffs through Effective Token Cost in Deep Search Agents", Sharifymoghaddam et al. ↩︎

  2. ちなみに最近、「AIエージェントの推論中の動きよくわからない」→「そうだ!見直そう or 可視化しよう or 分析しよう」系の研究が、かなり増えてきているように感じます。 ↩︎

  3. この論文では、リランカーとしてOpenAIの「gpt-oss-20b」「gpt-oss-120b」を使っています(RankLMというフレームワークを活用)。Reasoningの深さをLowで設定して利用してます ↩︎

  4. この論文では「コスパ」を正確に測るために、ETC(Effective Token Cost) という指標を導入しています。単に「トークン」といっても「入力なのか・出力なのか・キャッシュなのか」で変わってくるため重み付けしています。 ↩︎

ナレッジセンス - 生成AIとRAGの実装戦略・技術ブログ

Discussion