2025年のLLMエージェントのサーベイ論文を読んでみた:前編
執筆のきっかけ
AIエージェントに関して、なんとなく定義とかはわかるけど断片的な情報しか持っていないと感じたため、本記事を執筆してみました。
ビジネス視点で(弊社はAIエージェントの社会実装を目指しているため、その視点で)、押さえておくべきAIエージェントに関連する観点や用語をご紹介できればと思います。
ご紹介すべき内容がボリューミーなため、本記事は前編とさせていただきます。
「LLMエージェントの方法論」と「評価とツール」の2軸で執筆いたします。
対象のサーベイ論文
2025年3月に発表された論文「Large Language Model Agent: A Survey on
Methodology, Applications and Challenges」をざっと読んでいきます。
AIエージェントの発展は急速であり、本論文はAIエージェントの分類や各種論文のサーベイ結果が分かりやすい図とともにまとめられています。
以下は、AIエージェントのエコシステムを図に表したものです。

また、本サーベイ論文の調査で参照されている論文のコードが以下のgithubに体系的にまとめられています。
導入部分の要約
本サーベイ論文の調査内容や狙いは、以下となります。
-
LLM(大規模言語モデル)エージェントシステムを「構築」「協働」「進化」という3つの軸から体系的に捉える新しい分類法(タクソノミー)を提案し、エージェントの定義、個別・集団での機能、そして時間とともにどのように進化するかを包括的に分析する
-
この枠組みは、急速に進化するエージェント技術の現状を明らかにするだけでなく、今後の発展を示唆するパターンも浮き彫りにする
注目すべき点としては、方法論に基づいたアプローチがなされており、「構築」「協働」「進化」というの3つの次元でAIエージェントに関する技術的基盤を整理している点です。
- 構築(Build):エージェントの定義、記憶機構、計画能力、行動実行
- 協働(Collaborate):複数エージェント間の連携や意思決定の仕組み
- 進化(Evolve):学習と改善のプロセス
本サーベイ論文の調査内容は、研究者だけでなく、政策立案者、産業界の実務者、そして社会全体にとって、LLMエージェントの理解と活用に向けた基盤を提供するものと記載されており、謡われている通りどんな業界の人でもAIエージェントを構造的に理解しやすい内容となっております。
LLMエージェントの方法論の分類
以下の図でLLMエージェントの方法論がわかりやすく分類されています。

以降の項目で、各方法論で自分が気になったものをピックアップしていきます。
プロファイルの定義
プロファイルとは、エージェント固有の属性や行動パターン、役割を設定することです。
定義方法が、静的プロファイルと動的プロファイルに分類されます。

静的プロファイル
ドメインの専門家(人)が役割を定義する。高い解釈性と規制準拠性が求められる場面に適している。
ex. AutoGen、MetaGPT、ChatDev、AFlow、etc.
動的プロファイル
AIが人間の社会的行動を模倣できるような役割を定義(エージェントを生成)する。エージェントを大量生成できる。
ex. Generative Agents、RecAgent、DSPy、etc.
メモリ機構
エージェントが情報を保持・整理・再利用するための基盤がメモリ機構です。
以下の3種類に分類されます。

短期記憶(Short-Term Memory)
役割:対話履歴や環境からのフィードバックを一時的に保持し、文脈に応じたタスク実行を支援。
課題:情報は一時的で、タスク終了後には消失。LLMのコンテキストウィンドウ制限により、情報圧縮(要約や選択的保持)が必要。
代表例:
ReAct:内省的思考を支援
ChatDev:ソフトウェア開発支援
Graph of Thoughts:思考プロセスをグラフとして表現し、複雑な問題を解決
AFlow:ワークフロー自動化
長期記憶(Long-Term Memory)
役割:中間的な推論や経験を構造化して保存し、将来のタスクで再利用可能な知識資産に変換。
3つの主要パラダイム:
スキルライブラリ:Voyager、GITM など
経験リポジトリ:ExpeL、Reflexion など
ツール合成フレームワーク:TPTU、OpenAgents など
応用例:Lego-Prover(定理証明)、MemGPT(階層型メモリ)
知識検索型メモリ(Knowledge Retrieval as Memory)
特徴:エージェント内部の記憶ではなく、外部知識ベースを動的に参照することで、情報アクセスの限界を突破。
主なアプローチ:
静的知識基盤:RAG(テキスト)、GraphRAG(知識グラフ)
対話型検索:Chain of Agents など、対話中に外部情報を取得
推論統合型検索:IRCoT、Llatrieval など、推論と検索を交互に行う
高度な実装例:KG-RAR(タスク特化グラフ構築)、DeepRAG(検索判断モジュール)
ビジネス視点で考えると、AIに解決させたいタスクにおいて、長い文章を理解することが必要なのか、会話の繋がりを重視するのか…などで上記3つのメモリ機構を使い分ける必要がありそうです。
計画能力
LLMエージェントが現実世界の複雑なタスクをこなすためには、「計画能力」が不可欠です。この能力は、タスクを分解して処理する力と、フィードバックを活用して計画を改善する力の2つの観点から構成されます。

タスク分解(Task Decomposition)
複雑な問題を小さなサブタスクに分割し、それぞれを順に解決することで、全体の課題に対応するアプローチです。主に以下の2つの戦略があります:
シングルパス・チェイニング(Single-Path Chaining)
例:Zero-Shot Chain-of-Thought、Plan-and-Solve、Dynamic Planning
特徴:一連のサブタスクを順に処理するが、柔軟性に欠ける場合もある
改良:複数の思考経路を組み合わせる「マルチチェーン・アンサンブル」により精度向上
ツリーベース・プランニング(Tree-Based Planning)
例:Tree-of-Thought(ToT)、バックトラッキング、強化学習(RL)
特徴:複数の推論経路を探索し、誤りを修正しながら最適解に到達
応用:ロボティクスやゲームなど、試行錯誤が求められる領域で有効
フィードバック駆動の反復(Feedback-Driven Iteration)
エージェントが外部からのフィードバックを受け取り、それをもとに計画を修正・改善していくプロセスです。主なフィードバック源は以下の通り:
- 環境からのフィードバック(例:ロボットのセンサー情報)
- 人間からのフィードバック(例:ユーザーの指示や評価)
- 自己内省(例:モデル自身による推論の見直し)
- マルチエージェント協働(例:他のエージェントとの意見交換)
この反復的なプロセスにより、エージェントは計画を再生成したり、推論経路を調整したり、目標自体を見直すことも可能になります。
LLMエージェントの計画能力は、柔軟性・適応性・精度の向上に直結します。AIエージェントによるタスク実行結果が期待しないものである場合、この辺りを見直すと良いかもしれません。
行動実行
どれほど優れた計画を立てても、それを実行できなければ意味がありません。LLMエージェントにとって「行動実行能力」は、計画を現実世界で実現するための重要なスキルです。この能力は主に以下の2つの側面から構成されます。

ツールの活用(Tool Utilization)
LLMエージェントは、外部ツールを使うことで自らの能力を拡張できます。たとえば、計算、最新情報の取得、コード生成などが可能になります。ツール活用には以下の2つの判断が求められます:
- ツール使用の判断:自信がない出力や特定の機能が必要な場面で、ツールを使うべきかどうかを判断します。
- ツールの選択:利用可能なツールの理解と、現在の状況に応じた最適なツールを選ぶ能力が必要です。たとえば、ツールのドキュメントを簡素化して理解しやすくする工夫も提案されています。
物理的インタラクション(Physical Interaction)
実世界で動作する「具現化されたエージェント(embodied agents)」にとって、物理的な行動実行は不可欠です。ロボットのようなハードウェアを操作したり、人間社会の知識を活用したり、他のエージェントと連携したりする能力が求められます。
例:ロボットアームの操作、現場でのセンサー情報の解釈、他のエージェントとの協調行動など
このように、LLMエージェントの行動実行能力は、ツールを使いこなす知的な側面と、現実世界での物理的な動作という実践的な側面の両方を含んでいます。これにより、エージェントは「考えるだけ」ではなく「実行する存在」として進化しているのです。
エージェント協働
LLMエージェントは、単独での推論だけでなく、他のエージェントと協働することで、より高度な問題解決能力を発揮します。本研究では、エージェント協働のアーキテクチャを以下の3つに分類しています。

中央集権型(Centralized Control)
特徴:中央のコントローラーが全体を統括し、サブエージェントにタスクを割り当てる構造。
実装例:
明示的コントローラー型:Coscientist(科学実験の統括)、LLM-Blender(最適応答の統合)、MetaGPT(ソフトウェア開発の役割分担)
差分型:AutoAct(役割分化によるタスク分解)、Meta-Prompting(メタプロンプトによる動的割り当て)
適用領域:産業オートメーション、科学研究など、厳密な制御が求められる場面
分散協調型(Decentralized Collaboration)
特徴:各エージェントが自律的に連携し、直接対話や編集を通じて問題を解決。
アプローチ:
リビジョン型:MedAgents(専門家による逐次修正)、ReConcile(相互評価による改善)、METAL(視覚・テキストの専門エージェント)
コミュニケーション型:MAD(思考の偏りを防ぐ対話)、MADR(主張の検証と改善)、MDebate(議論による合意形成)、AutoGen(グループチャット型協働)
適用領域:社会的対話、創造的タスク、柔軟な意思決定が求められる場面
ハイブリッド型(Hybrid Architecture)
特徴:中央制御と分散協調を組み合わせ、柔軟性と制御性のバランスを取る。
実装例:
静的システム:CAMEL(グループ内分散+中央統制)、AFlow(三層構造の戦略・戦術・実行)、EoT(BUS/STAR/TREE/RINGなどのトポロジー)
動的システム:DiscoGraph(教師-生徒構造による動的最適化)、DyLAN(重要エージェントの選定と構造調整)、MDAgents(タスクの複雑性に応じた構造切替)
適用領域:複雑で変化の激しいタスク、リソース最適化が必要な場面
LLMエージェントの協働は、構造の選択によって柔軟性・効率性・拡張性を大きく左右します。
エージェントの進化
LLMエージェントは、単なる静的なモデルではなく、自己学習・他者との相互作用・外部リソースの活用を通じて進化し続ける存在です。エージェントの進化を支える3つの主要なメカニズムを紹介します。

自律的最適化と自己学習(Autonomous Optimization & Self-Learning)
自己教師あり学習:ラベルなしデータや内部生成データを活用して学習効率を向上(例:Self-Evolution Learning, DiverseEvol)
自己内省と自己修正:出力の誤りを自ら検出・修正し、推論の信頼性を高める(例:SELF-REFINE, STaR, V-STaR)
自己報酬と強化学習:内部報酬を生成して意思決定を改善(例:RLC, Contrastive Distillation)
マルチエージェント共進化(Multi-Agent Co-Evolution)
協調的学習:複数のエージェントが情報を共有し、共同で意思決定(例:ProAgent, CORY, CAMEL)
競争的進化:対話や議論を通じて互いに批判・改善し合う(例:Red-Team LLMs, Multi-Agent Debate, MAD)
これにより、エージェントはより柔軟で戦略的な思考を身につけ、現実世界の複雑な課題にも対応可能になります。
外部リソースによる進化(Evolution via External Resources)
知識強化型進化:構造化された外部知識を統合し、推論や意思決定の精度を向上(例:KnowAgent, WKM)
外部フィードバック駆動型進化:ツールや人間、環境からのフィードバックを活用して出力を改善(例:CRITIC, STE, SelfEvolve)
これらの手法により、エージェントは訓練データの限界を超え、現実世界に適応し続けることが可能になります。
エージェントの進化による開発者にとってのメリットをまとめると、以下になりそうです。
- メンテナンスコストの削減:人手による再学習や再設計の頻度を減らせる
- ユーザー体験の向上:使えば使うほど賢くなるエージェントを提供できる
- 競争力の強化:変化に強いAIは、長期的に価値を発揮する
このように、LLMエージェントは一度使って終わりではなく、継続的に改善・適応することで長期的に価値を提供できるようになります。
評価とツール
LLMエージェントが高度化・多様化する中で、その性能を正しく評価し、効果的に開発・運用するための評価手法とツール群が不可欠になっています。以降の項目で、評価方法とツールエコシステムの2つの観点から、エージェント開発を支える基盤を紹介します。
評価手法(Evaluation Methodologies)
LLMエージェントの能力を測るためには、汎用的な評価だけでなく、タスクやドメインに応じた多角的な評価が求められます。

一般的な評価フレームワーク:推論力、計画能力、行動実行など、エージェントの基本性能を測定
ドメイン特化型評価:医療、教育、ソフトウェア開発など、特定領域における実用性を検証
協働評価アプローチ:マルチエージェント環境での協調性や意思決定の質を評価
一般的な評価フレームワーク:知能を多面的に測る新基準
従来の「成功率」だけでは、進化するLLMエージェントの知能を正確に評価することはできません。現在では、推論の深さ・環境適応力・タスクの複雑性など、より多面的な観点から評価するフレームワークが登場しています。
多次元能力評価(Multi-Dimensional Capability Assessment)
AgentBench:8つのインタラクティブ環境でLLMの複雑な推論能力を評価
Mind2Web:137の実在するWebサイトを対象に、31分野のタスクを通じて汎用性を測定
MMAU:3,000以上のクロスドメインタスクで、5つの中核能力をマッピング
BLADE:科学的発見における意思決定パターンを追跡
VisualAgentBench:GUI操作や視覚設計など、マルチモーダルなタスクに対応
Embodied Agent Interface:物理環境での誤り分類を細分化
CRAB:グラフィックベースの評価とPythonインターフェースによるクロスプラットフォームテスト
これらのベンチマークは、単一のスコアではなく、認知的な多様性と実用性を重視した評価を可能にします。
動的・自己進化型評価(Dynamic and Self-Evolving Evaluation Paradigms)
BENCHAGENTS:LLM自身がベンチマークを生成・検証・評価する自律型評価システム
Benchmark Self-Evolving:ショートカットバイアスを検出するためのテストインスタンスを動的に生成
TestAgent:強化学習を用いたドメイン適応型評価
Seal-Tools / CToolEval:ツール使用の標準化と多様なAPI評価(例:1,024のツール呼び出し、14分野398の中国語API)
これらの手法は、静的な評価基準の限界を超え、進化するAIに対応する柔軟な評価環境を提供します。
このように、LLMエージェントの評価は、もはや「正解か不正解か」ではなく、「どのように考え、どのように適応し、どのように行動するか」を測る時代に入っています。
ドメイン特化型評価:現実の課題に即した知能の測定
LLMエージェントの応用が多様化する中で、特定の業界や環境に特化した評価システムが求められています。ここでは、専門性と現実性の両面からエージェントを評価する2つのアプローチを紹介します。
専門領域における能力評価(Domain-Specific Competency Tests)
各業界に特化したベンチマークが、実際の業務シナリオに基づいて設計されています:
医療:MedAgentBench(300人の臨床医による設計)、AI Hospital(マルチエージェントによる臨床ワークフローの再現)
自動運転:LaMPilot(コード生成による自動運転アーキテクチャとの接続)
データサイエンス:DSEval、DA-Code(データライフサイクル全体を評価)、DCA-Bench(データセット品質の評価)
旅行計画:TravelPlanner(1,225の現実的な制約付きプランニングタスク)
機械学習エンジニアリング:MLAgent-Bench、MLE-Bench(Kaggle風のパイプライン最適化)
セキュリティ:AgentHarm(11カテゴリ440の悪意あるタスクによるリスク評価)
これらのベンチマークは、汎用的な評価では見えない実用上の課題や性能ギャップを明らかにします。
現実環境のシミュレーション(Real-World Environment Simulation)
仮想環境と現実のギャップを埋めるために、実際に操作可能な環境を用いた評価も進んでいます:
OSWorld:Ubuntu/Windows/macOS上で369のマルチアプリタスクを実行可能
TurkingBench:クラウドソーシング風のHTML UIで158のマイクロタスクを評価
OmniACT:Web/デスクトップ自動化タスクを32,000件収録
EgoLife:買い物・料理・交流など、日常生活を300時間記録したマルチモーダルデータセットとQAタスク
これらの環境は、実世界での適応力・記憶力・ツール統合能力など、より現実的なスキルを測定するのに適しています。
このように、ドメイン特化型評価は、LLMエージェントが「現実の仕事で本当に使えるかどうか」を見極めるための重要な指標です。次は、こうした評価を支えるツール群について見ていきましょうか?
ツールエコシステム(Tools Ecosystem)
LLMエージェントの開発・運用には、さまざまなツールが関与しています。これらは大きく3つに分類されます:

エージェントが使用するツール:計算、検索、コード生成など、外部機能を補完するためのツール(例:電卓、API、検索エンジン)
エージェントが生成するツール:エージェント自身が作成・改良するツールやスクリプト(例:コード生成、ワークフロー自動化)
エージェントシステムのインフラ:エージェントの実行・管理・連携を支える基盤(例:API連携、プロトコル、メモリ管理)
ツール:LLMエージェントの能力を拡張する外部資源
LLMエージェントは、単体では限界のあるタスクに対して、外部ツールを活用することで能力を大幅に拡張できます。さらに、ツールを自ら作成したり、運用のための基盤ツールを活用したりすることで、より実用的なエージェントシステムが構築可能になります。
エージェントが使用するツール(Tools Used by LLM Agents)
LLMが苦手とするリアルタイム情報や正確な計算などを補完するために、以下のような外部ツールが活用されます:
知識検索ツール:WebGPT、WebCPM、ToolCoder など。検索エンジンを通じて最新情報にアクセス。
計算ツール:Pythonインタプリタ、電卓、Toolformer、ART など。数値計算やコード実行を支援。
API連携ツール:RestGPT、GraphQLRestBench など。外部サービスとの連携により、データベース操作や自動化を実現。
エージェントが作成するツール(Tools Created by LLM Agents)
既存ツールの限界を超えるために、LLMエージェントが自らツールを生成・管理する研究も進んでいます。
CRAFRT:GPT-4のコード出力を抽象化し、再利用可能なツールセットを構築
Toolink:タスク解決のためのツール生成と統合を行う「Chain of Solutions」方式
CREATOR:作成→判断→実行→内省の4段階でツールを生成・改善
LATM:ツール作成者と使用者としての役割を分離し、効率とコストを最適化
エージェントシステムの運用ツール(Tools for Deploying LLM Agents)
LLMエージェントの開発・運用・保守を支えるためのツール群も重要です。
プロダクション化ツール:AutoGen、LangChain、LlamaIndex、Dify など。エージェントの構築・デプロイを支援。
運用・監視ツール:Ollama、Dify など。ログ分析やパフォーマンス監視により、継続的な改善を可能に。
モデルコンテキストプロトコル(MCP):MCP3、MCPAgent など。LLMとデータソースを安全に接続し、ワークフローを構築。
以下、MCPの概念をわかりやすく示した図です。

参照元URL
このように、ツールはLLMエージェントの「知能の外部化」を支える重要な要素です。次世代のエージェントは、ツールを使いこなし、作り出し、運用することで、より柔軟で強力な存在へと進化していきます。
Discussion