2025年はRAGの次にAIエージェントが来る
はじめに
2024年のAI界隈では「RAG」が一巡し、その可能性と限界が明確になってきました。最も顕著な点は「RAGは魔法の杖ではない」という認識の広がりではないでしょうか?
RAGは確かに、既存の文書やデータを活用したAIの応答精度向上に貢献してきました。しかし、単純な質問応答を超えた複雑なタスクの実行や、動的な状況への適応には限界があることも明らかになっています。この限界を超えるための次のステップとして注目を集めているのが「AIエージェント」です。
OpenAIのCEOであるサム・アルトマンが「次のブレークスルーはエージェントだ」と発言していたり
Anthropic社員がこのようなスピーチをしたりしています。
AIエージェントとは
AIエージェントは、特定のタスクや目的のために設計された自律的なAIシステムです。たとえば、会議の参加者の予定を自動で調整して最適な時間を設定するAIアシスタントや、ユーザーの好みを学習して最適な商品を推薦するショッピングエージェント、工場の保守管理を行うエージェントなど、様々な場面で活用されています。
The Rise and Potential of Large Language Model Based Agents
主な特徴
1. 環境認識と情報収集能力
AIエージェントは、与えられた環境から必要な情報を収集し、理解する能力を持っています。カスタマーサービスの場合、チャット履歴から顧客の感情や意図を理解し、過去の対応記録から最適な解決策を見つけ出します。また、スマートホームでは室温や湿度、家族の生活パターンを学習し、最適な環境制御を行います。
2. 自律的な意思決定能力
収集した情報を基に、目標達成のための最適な行動を自ら決定します。例えば、「営業資料作成」という目標に対して、市場分析、競合調査、提案書作成、デザイン調整といった具体的なタスクに分解します。その上で、リソースと時間の制約を考慮しながら、タスクの優先順位付けや実行計画を立案します。
3. 実行・学習・改善サイクル
AIエージェントは、行動の結果を継続的に評価し、性能を向上させていきます。実行フェーズでは計画に基づいたアクションを実施し、評価フェーズでは目標達成度の測定やユーザーフィードバックの収集を行います。そして改善フェーズでは、成功・失敗要因を分析し、アプローチの最適化を図ります。
重要なポイント
AIエージェントの特徴は、人が設定した目標に対して、必要なタスクを自律的に選択し実行できる点にあります。与えられたツールを活用し、必要なデータを収集しながら、自己判断で目標達成に向けて行動します。
AIエージェントについてはこちらの西見さんの資料がとても参考になります。
Project Astraのような先進的な取り組みも注力されています。
代表的な種類
1. チャットボット型エージェント
自然言語での対話を通じて様々な支援を提供します。製品説明や問い合わせ対応といったカスタマーサポート、社内の業務支援、飲食店や美容院の予約管理など、幅広い場面で活用されています。
2. タスク特化型エージェント
スケジュール管理、データ分析、在庫管理、文書処理など、特定の業務領域に特化した自動化を実現します。それぞれの分野で高度な専門性を発揮し、人間の業務を効率的にサポートします。
3. マルチエージェントシステム
複数のエージェントが連携して複雑な業務を遂行します。プロジェクト管理を例にとると、進捗管理、リソース配置、リスク分析といった役割を持つエージェントが協力し、プロジェクト全体の最適化を実現します。
マルチエージェントシステムとは
マルチエージェントシステムは、複数のAIエージェントが協力して問題を解決するシステムです。各エージェントが特定の専門性や役割を持ち、相互にコミュニケーションを取りながら、複雑なタスクを達成します。
The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling
主な特徴
1. 分散型の問題解決
ソフトウェア開発を例にとると、設計、コーディング、テスト、ドキュメント作成など、それぞれの専門分野を持つエージェントが協力して開発を進めます。各エージェントが得意分野を活かしながら、全体として調和の取れた成果物を作り上げていきます。
2. 自律性と協調性
ECサイト運営では、在庫管理、価格設定、広告運用といった異なる役割を持つエージェントが、互いに連携しながら業務を遂行します。例えば、在庫状況に応じて価格を調整したり、在庫消化のためのプロモーションを展開したりと、状況に応じて柔軟に対応します。
活用メリット
マルチエージェントシステムの導入により、複雑なタスクを効率的に処理できるようになります。また、各エージェントの専門知識を組み合わせることで、より高度な問題解決が実現でき、必要に応じてシステムを柔軟に拡張することもできます。
なぜAIエージェントなのか
これまでの生成AIは人間が投げかけた質問に対して文章や、画像、動画などを生成してくるという対話型の機能でした。
ですがAIエージェントは「〇〇を作って」「〇〇を予約して」のように目的を入力するだけで、目的の達成に必要なタスクを洗い出して自動で実行してくれる生成AIを使ったプログラムです。
これまでの対話型の機能だけではなく、計画、記憶、振り返りの機能を追加したり、専門性をもたせたAIエージェントを用意することで、目的を達成するまでの細かな指示を与えなくても自動で作業が行えるようになります。
これまで人間がやっていたことをAIが自分で考えてやってくれるるという点が大きな魅力です。
大袈裟な例えですがAIエージェントに対してゴールを設定して実行するだけであとは寝ている間に完成しているという未来がちょっとだけ見えたりします。
そんな中でも私はマルチエージェントが一番アツいと考えています。
専門性を持たせたAIエージェントを複数用意することでAI同士が協調してタスクを遂行する未来はとてもワクワクしませんか?
エージェント同士を協力させてタスクを完遂させるだけでなくマルチエージェントの仕組みを使えばAIエージェント同士で会話や議論させることもできます。
例えば、たけのこの里派のAIエージェントときのこの山派のAIエージェントを作って議論させてみるのも面白そうですね。
またAIエージェント同士で議論させるだけでなくそこに人間が混ざることにより人とAIエージェントが同じ環境で議論するのも面白いのではと考えています。
先日のAWS re:Invent 2024でマルチエージェントコラボレーション機能が発表されたりしています。
マルチエージェントフレームワーク
マルチエージェントについては各社様々な取り組みをしておりフレームワークがオープンソースで公開されていたりします。
1. CrewAI
複数のエージェントに役割を割り当て、協調して作業を進めることが可能
2. AutoGen
複数のエージェントの協調対話を可能にするフレームワーク
3. LangGraph(LangChain)
エージェントの実装に広く使われている
4. CAMEL-AI
AIの振る舞いを研究するためのオープンソース
5. ChatDev
AIエージェントがソフトウェア開発を行う仮想の会社
6. Swarm
OpenAI社が公開した、マルチエージェントオーケストレーションのためのフレームワーク
マルチエージェントの課題
発展途上でこれから進化していく技術ですので現時点ではまだまだAIエージェントだけでタスクを完遂させるには時間がかかるなといったのが色々なマルチエージェントフレームワークを触ってみた感想です。
1. エージェント間のコミュニケーション
まず最も重要な課題は、エージェント間のコミュニケーションです。複数のAIが協力して作業を行う際、情報共有の効率性と正確性が非常に重要になります。例えば、あるエージェントが見つけた重要な情報を他のエージェントと共有する際、その情報の文脈や重要性が正しく伝わらないことがあります。
2. 一貫性の維持
次に、一貫性の維持という課題があります。複数のエージェントが独自の判断を行う中で、システム全体としての整合性を保つことは難しい問題です。特に、各エージェントが異なる目標や優先順位を持っている場合、最終的な意思決定が矛盾する可能性があります。
3. スケーラビリティの問題
また、システムの規模が大きくなるにつれて、計算コストと複雑性が急激に増加するという課題もあります。エージェントの数が増えると、それだけ処理すべき情報量も増え、タスクが完了するまでの時間が長くなりシステム全体の効率が低下する可能性があります。
4. 信頼性の確保
さらに、信頼性の確保も重要な課題です。一つのエージェントの誤動作や障害が、システム全体に波及する可能性があります。このため、個々のエージェントの信頼性だけでなく、システム全体としての堅牢性を確保する必要があります。
これらの課題は相互に関連しており、一つの解決策が別の問題を引き起こす可能性もあります。そのため、バランスの取れたアプローチが必要とされています。
すべてのタスクをAIだけに任せるのではなくAIがタスクを実行している途中に人間が介在することでより上に挙げた課題の解決につながったりタスクの精度は上がっていくのではないかと思います。
これはいわゆるヒューマンインザループの考えです。
ヒューマンインザループとは
マルチエージェントシステムにおけるヒューマンインザループは、複数のAIエージェントが協調して動作する環境で、人間が監督者として重要な役割を果たすアプローチです。
具体的には、エージェント間の調整や最終的な意思決定において人間が介入し、システム全体の方向性を管理します。例えば旅行予約を行うという目的のマルチエージェントシステムの場合は、複数のAIエージェントが航空券の検索、ホテルの空室確認、観光スポットの推薦を行う中で、人間のオペレーターがそれぞれの提案を評価し、顧客の要望や予算に応じた最適なプランを調整することなどが考えられます。
このように、マルチエージェントシステムにおける人間の関与は、システムの信頼性確保と倫理的な運用において重要な役割を担っており、エージェント間の予期せぬ相互作用や競合が発生した際の調整にも不可欠です。
まとめ
2025年のAI技術において、AIエージェントとマルチエージェントは、従来の生成AIの限界を超える新たなブレークスルーとなる可能性を秘めています。RAGによる単純な質問応答から一歩進んで、AIエージェントは自律的に目標設定と実行を実現し、マルチエージェントシステムではそれぞれの専門性を持つAIが協調して複雑なタスクを遂行します。
特に注目すべき点は、AIエージェントが持つ三つの能力です。環境を認識して情報を収集する能力、収集した情報を基に自律的な意思決定を行う能力、そして実行結果から学習して改善を続ける能力です。これらの能力により、人間が細かな指示を出さなくても、目標に向かって自律的に行動できるようになります。
さらに、マルチエージェントシステムでは、個々のAIエージェントが持つ専門性を組み合わせることで、より高度な問題解決が可能になります。ソフトウェア開発やECサイト運営など、複数の専門性が必要な領域で特に力を発揮する可能性が大いにあります。
ただし、エージェント間のコミュニケーションや一貫性の維持、システムの信頼性確保など、現時点での課題も認識しておく必要があります。これらの課題に対しては、ヒューマンインザループの考え方を取り入れ、人間による適切な監督と調整を組み合わせることで、より実用的なシステムの構築が可能となると私は考えています。
AIエージェントとマルチエージェントの技術は、まだ発展途上の段階です。しかし各社が開発しているフレームワークの日々のアップデートを見ると2025年にAI界隈に大きなインパクトを与えるものになっているような気がしてなりません。
関連情報
私がこれまでに検証したマルチエージェントについて以下のブログにまとめていますので紹介させていただきます。
より詳しくAIエージェントについて知りたいという方はAIエージェントに関する論文をまとめてくれていますのでご覧ください。
Discussion