🤖

AIエージェントを「自己進化」させる仕組み

に公開

本記事では、AIエージェントを自己進化させて性能を高める手法について、ざっくり解説します。

株式会社ナレッジセンスは、「エンタープライズ企業の膨大なデータを掘り起こし、活用可能にする」プロダクトを開発しているスタートアップです。

この記事は何

この記事は、訓練データなしでAIエージェントを自己進化させる手法「Dr. Zero」の論文[1]について、日本語で簡単にまとめたものです。

https://arxiv.org/abs/2601.07055

今回も「そもそもAIエージェントとは?」については、知っている前提で進みます(参考)。

本題

ざっくりサマリー

AIエージェントを「自己進化」させる仕組み

Dr. Zeroは、「AIエージェント」を訓練データなしで進化させるための手法です。Meta社とイリノイ大学の研究者らによって2026年1月に提案されました。

ここで言う「AIエージェント」とは、例えばOpenAIの「Deep Research」や「Claude Code」のような、検索エージェントです。

実は、検索エージェントを作るのは、かなり難しいです。知りたい情報を「いい感じに」見つけてくるエージェントを作るには、がっつり、LLMを訓練する必要があります。

ただ、当然ですが、訓練用の大量のデータには、莫大なコストがかかります。[2]

しかし、今回のDr. Zeroという手法は、データ不要で、LLM単体で、自己進化させるための手法を提案しています。ざっくり言うと、同じLLMを、問題を「出す側」と「解く側」に分けます。これらを、相互作用的に進化させることで、性能を向上させます。[3]

問題意識

「AIエージェント」の機能を自分で実装しようとすると、精度を上げるのが大変です。

というか、OpenAI社の天才たちが構築した「エージェント」ですら、いざ使ってみると「期待通りに動かない」ってことはよくあります。

そもそも、AIエージェントの精度を上げるには、大量の高品質な訓練データが必要です。ただ、学習データを人間が用意するとなると、膨大なコストがかかります。

じゃあ「AIに自分で問題を作らせて、自分で学習させればいいのでは?」という発想がありますが、これまでの研究では、AIは、自分のための「ちょうどいいレベル」の問題を作るが難しい、という問題がありました。

あとはGPUのコストも有限なので、「いかに効率よく学ばせるか」ということも、重要な論点でした。

手法

Dr. Zeroでは、「Proposer(=出題者)」と「Solver(=解答者)」が互いにフィードバックを与え合いながら進化していく仕組みを提案しています↓

AIエージェントを「自己進化」させる仕組み

具体的な手順は以下です。

  1. 同じLLMの役割を分ける
    • 同じLLM(Qwen-2.5)を「Proposer(出題者)」と「Solver(解答者)」に分ける
    • Proposerが質問を生成、Solverはそれを解く
    • (例:「AとBの関係を検索して教えて」みたいな、検索ツールを使う質問を大量に生成して、大量に解いていきます)
  2. 難易度ガイド付きの報酬
    • Proposerに「ちょうど良い難易度の問題を出す」インセンティブを与える
    • Solverが「全問正解→報酬低い」(簡単すぎ)。逆に「全問不正解→報酬低い」(難しすぎ)
    • Solverが一部だけ正解→報酬高い
    • これにより、Proposerは「Solverの実力に合わせて、ちょうどよい難問」を出し続ける
  3. HRPOで効率化
    • 前提として、従来手法(GRPO)だと計算コストが膨大という課題があります
    • (→「たまたまいい回答ができてしまった」みたいなことを防ぐために、各質問ごとに、Solverには複数回、回答を作らせますが、それは当然毎回、GPUを使います)
    • そこで、「HRPO」という手法を開発。「質問の複雑さ」(=回答に必要な検索ステップ数)ごとにグループ分けして評価する

Dr. Zeroのキモは、AI同士に「適切なレベル」のゲームを続けさせる仕組みです。人間が介入しなくても、AI自身が検索エンジンを使って裏取りをしながら問題を作るため、嘘のない、ちょうどいいレベルのデータを、大量に用意できます。そして、「大量に用意する」だけでは延々に学習が終わらないので、効率化手法も実装しています。

成果

  • 7つのQAベンチマーク(NQ、TriviaQA、HotpotQAなど)において、訓練データを使った教師ありベースライン(Search-R1)と同等以上の性能を達成
  • 特に単純な1ホップタスク(NQ、TriviaQA、PopQA)では、教師ありベースラインを最大22.9%上回る結果
  • 既存のデータフリー手法(R-Zero)と比較して、平均27.3%の性能向上
  • HRPOにより、計算コストを約4分の1に削減しながら、同等の性能を維持

限界

とはいえ、今の仕組みだと「無限に性能を伸ばすことはできない」という限界も報告されています。これが起きる理由は、

  • ①Solverの解法が凝り固まるため。学習が進むとSolverのエントロピー(出力の多様性)が急激に低下し、同じパターンの解法しか出さなくなる
  • ②イテレーションを繰り返すとtoken ID の不整合が起き始めるため。(※ただこの点、詳しく書かれておらず、どういうことなのか、正直に言って謎です)

と、まとめられています。

まとめ

弊社では普段から、エンタープライズ向けに生成AIサービスを開発しています。大企業のみなさまからも、かなり「AIエージェント」は期待されていますが、現在の実態としては、技術的な壁があり「イマイチ」な精度になってしまうことがほとんどです。

ただ、今回のDr. Zeroのように「自己進化」できる手法が実用化されれば、「社内ドキュメントさえあれば、AIが勝手にそこからクイズを作り、勝手に賢くなってくれる」という状態を実現できます。特に、「この情報は、このフォルダを見に行かないと分からない」みたいな社内ルールが複雑なエンタープライズ環境において、活躍が期待できます。

みなさまが業務でRAGシステムを構築する際も、選択肢として参考にしていただければ幸いです。今後も、RAGの回答精度を上げるような工夫や研究について、記事にしていこうと思います。我々が開発しているサービスはこちら

脚注
  1. "Dr. Zero: Self-Evolving Search Agents without
    Training Data
    ", Yue et al.
    ↩︎

  2. 例えばOpenAIでは、AIエージェントとしての性能を向上させるために、元コンサルやPhDの学生などを大量に動員してデータを構築していると報道されています(リンク↩︎

  3. (個人的には、「AlphaGo」的な世界観で、とてもワクワクします。) ↩︎

ナレッジセンス - 生成AIとRAGの実装戦略・技術ブログ

Discussion