AIエージェントを「自己進化」させる仕組み
本記事では、AIエージェントを自己進化させて性能を高める手法について、ざっくり解説します。
株式会社ナレッジセンスは、「エンタープライズ企業の膨大なデータを掘り起こし、活用可能にする」プロダクトを開発しているスタートアップです。
この記事は何
この記事は、訓練データなしでAIエージェントを自己進化させる手法「Dr. Zero」の論文[1]について、日本語で簡単にまとめたものです。
今回も「そもそもAIエージェントとは?」については、知っている前提で進みます(参考)。
本題
ざっくりサマリー

Dr. Zeroは、「AIエージェント」を訓練データなしで進化させるための手法です。Meta社とイリノイ大学の研究者らによって2026年1月に提案されました。
ここで言う「AIエージェント」とは、例えばOpenAIの「Deep Research」や「Claude Code」のような、検索エージェントです。
実は、検索エージェントを作るのは、かなり難しいです。知りたい情報を「いい感じに」見つけてくるエージェントを作るには、がっつり、LLMを訓練する必要があります。
ただ、当然ですが、訓練用の大量のデータには、莫大なコストがかかります。[2]
しかし、今回のDr. Zeroという手法は、データ不要で、LLM単体で、自己進化させるための手法を提案しています。ざっくり言うと、同じLLMを、問題を「出す側」と「解く側」に分けます。これらを、相互作用的に進化させることで、性能を向上させます。[3]
問題意識
「AIエージェント」の機能を自分で実装しようとすると、精度を上げるのが大変です。
というか、OpenAI社の天才たちが構築した「エージェント」ですら、いざ使ってみると「期待通りに動かない」ってことはよくあります。
そもそも、AIエージェントの精度を上げるには、大量の高品質な訓練データが必要です。ただ、学習データを人間が用意するとなると、膨大なコストがかかります。
じゃあ「AIに自分で問題を作らせて、自分で学習させればいいのでは?」という発想がありますが、これまでの研究では、AIは、自分のための「ちょうどいいレベル」の問題を作るが難しい、という問題がありました。
あとはGPUのコストも有限なので、「いかに効率よく学ばせるか」ということも、重要な論点でした。
手法
Dr. Zeroでは、「Proposer(=出題者)」と「Solver(=解答者)」が互いにフィードバックを与え合いながら進化していく仕組みを提案しています↓

具体的な手順は以下です。
-
同じLLMの役割を分ける
- 同じLLM(Qwen-2.5)を「Proposer(出題者)」と「Solver(解答者)」に分ける
- Proposerが質問を生成、Solverはそれを解く
- (例:「AとBの関係を検索して教えて」みたいな、検索ツールを使う質問を大量に生成して、大量に解いていきます)
-
難易度ガイド付きの報酬
- Proposerに「ちょうど良い難易度の問題を出す」インセンティブを与える
- Solverが「全問正解→報酬低い」(簡単すぎ)。逆に「全問不正解→報酬低い」(難しすぎ)
- Solverが一部だけ正解→報酬高い
- これにより、Proposerは「Solverの実力に合わせて、ちょうどよい難問」を出し続ける
-
HRPOで効率化
- 前提として、従来手法(GRPO)だと計算コストが膨大という課題があります
- (→「たまたまいい回答ができてしまった」みたいなことを防ぐために、各質問ごとに、Solverには複数回、回答を作らせますが、それは当然毎回、GPUを使います)
- そこで、「HRPO」という手法を開発。「質問の複雑さ」(=回答に必要な検索ステップ数)ごとにグループ分けして評価する
Dr. Zeroのキモは、AI同士に「適切なレベル」のゲームを続けさせる仕組みです。人間が介入しなくても、AI自身が検索エンジンを使って裏取りをしながら問題を作るため、嘘のない、ちょうどいいレベルのデータを、大量に用意できます。そして、「大量に用意する」だけでは延々に学習が終わらないので、効率化手法も実装しています。
成果

- 7つのQAベンチマーク(NQ、TriviaQA、HotpotQAなど)において、訓練データを使った教師ありベースライン(Search-R1)と同等以上の性能を達成
- 特に単純な1ホップタスク(NQ、TriviaQA、PopQA)では、教師ありベースラインを最大22.9%上回る結果
- 既存のデータフリー手法(R-Zero)と比較して、平均27.3%の性能向上
- HRPOにより、計算コストを約4分の1に削減しながら、同等の性能を維持
限界

とはいえ、今の仕組みだと「無限に性能を伸ばすことはできない」という限界も報告されています。これが起きる理由は、
- ①Solverの解法が凝り固まるため。学習が進むとSolverのエントロピー(出力の多様性)が急激に低下し、同じパターンの解法しか出さなくなる
- ②イテレーションを繰り返すとtoken ID の不整合が起き始めるため。(※ただこの点、詳しく書かれておらず、どういうことなのか、正直に言って謎です)
と、まとめられています。
まとめ
弊社では普段から、エンタープライズ向けに生成AIサービスを開発しています。大企業のみなさまからも、かなり「AIエージェント」は期待されていますが、現在の実態としては、技術的な壁があり「イマイチ」な精度になってしまうことがほとんどです。
ただ、今回のDr. Zeroのように「自己進化」できる手法が実用化されれば、「社内ドキュメントさえあれば、AIが勝手にそこからクイズを作り、勝手に賢くなってくれる」という状態を実現できます。特に、「この情報は、このフォルダを見に行かないと分からない」みたいな社内ルールが複雑なエンタープライズ環境において、活躍が期待できます。
みなさまが業務でRAGシステムを構築する際も、選択肢として参考にしていただければ幸いです。今後も、RAGの回答精度を上げるような工夫や研究について、記事にしていこうと思います。我々が開発しているサービスはこちら。
-
"Dr. Zero: Self-Evolving Search Agents without
Training Data
", Yue et al. ↩︎ -
例えばOpenAIでは、AIエージェントとしての性能を向上させるために、元コンサルやPhDの学生などを大量に動員してデータを構築していると報道されています(リンク) ↩︎
-
(個人的には、「AlphaGo」的な世界観で、とてもワクワクします。) ↩︎
Discussion