🐕

AIエージェントの走りとなったAutoGen【論文要約】

2025/09/07に公開

 初めにこんにちは、AIエンジニアを目指しているmitaです！
今回は

AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation

という、大規模言語モデル（LLM）を単独で使うのではなく、複数エージェントを会話させて協調的にタスクを解決するフレームワークを提案した研究を要約＆考察していきます。
キャッチアップした内容を共有していくので、何かしらの形でお役に立てれば光栄です！
https://arxiv.org/pdf/2308.08155

 論文要約この論文では、Microsoft Research を中心に開発された AutoGen というオープンソースフレームワークが紹介されています。

AutoGen の特徴は、複数のエージェント（LLM・人間・ツール）が会話を通じて協調できる仕組みを提供することです。

従来の LLM アプリケーションでは「1つのモデルに入力→出力」という構造が多かったのに対し、AutoGen では エージェント同士の会話をプログラム可能にすることで、複雑なタスクも柔軟に解決できるようにしています。

 論文詳細
 論文背景LLM の応用範囲は急速に広がっているが、単独モデルでは限界がある。

複雑なタスクは「分解」して協調的に解決する方が効率的。
そこで「複数エージェントを会話形式で協力させる」フレームワークが求められていた。

 論文内容下記二つの概念を提案し、それらを併せ持つマルチエージェントフレームワークAutoGenを提案している。

Conversable Agent（会話可能エージェント） を定義。
AutoGenが導入したエージェントの最上位抽象で、LLM／人間入力／外部ツールのいずれ（または組み合わせ）でも裏側を構成できる
メッセージを受け取り → 反応し → 返答する“会話主体”として振る舞えるようにした統一モデル
適切に設定すれば、自律的に複数ターン会話したり、必要なラウンドだけ人間の入力を要求できる


Conversation Programming（会話プログラミング） を提案。
プログラムを「会話の流れ」として表現する
誰がいつ発話するか、どのエージェントが応答するかを設計する
制御は 自然言語（プロンプト） と コード（Python制御） の両方で可能


 結果AutoGen を使って以下の応用例を実証：

数学問題解決 → 正答率が向上。

検索拡張型チャット（RAG） → 柔軟な知識参照が可能。

ALFWorld（意思決定タスク） → 成功率が上昇。

マルチエージェント・コーディング → コード生成＋レビューで安全性・効率性UP。

動的グループチャット → 会話の流れに応じて発話者を動的に選択。

会話型チェス → ルール遵守を保証するチェッカーエージェントを追加。
これにより、AutoGen が 研究・実務・エンタメまで幅広く有効であることが示された。

 マルチエージェントとは複数のエージェントが協調してタスクを遂行する仕組み。

ここでの「エージェント」とは、LLMや人間、外部ツールなど、会話に参加して役割を果たす存在を指す。

AutoGen では、これらが自然言語を通じて協力し合う。

 プログラミングパラダイムとはプログラムをどんな考え方・スタイルで記述するかを指す概念で下記のようなものがあった。
手続き型（imperative）: 手順を順番に書く（C, Pythonの基本スタイル）
関数型（functional）: 関数合成や不変データを重視（Haskell, Scala）
オブジェクト指向（OOP）: データと振る舞いをオブジェクトでまとめる（Java, Pythonのクラス）
AutoGenでは新しいプログラミングパラダイムとしてConversation Programmingを提案している。

 個人的感想
 論文まとめ従来は人間が聞きLLMが答えを提示するという一方通行なやり取りが主流だった。

これだと複雑なタスクへの回答精度低下や、プロンプトによる得意不得意が分かれるという課題が生まれた。
AutoGenはその課題を解決するために提案されたもので、Conversable Agentという概念を実装し、Conversation Programmingという新しいプログラミングパラダイムを実現するフレームワークとなっている。
Conversable Agent とは、人間だけでなく LLM エージェントや外部ツールも等しく会話の参加者として扱える抽象概念。

各エージェントは『メッセージを受け取り・反応し・返答する』という共通の会話インターフェースを持ち、タスクごとの専門性を活かして、他のエージェントや人間と協業しながら高度なタスクを遂行することを目指している。
Conversation Programmingとは本論文で提案されたプログラミングパラダイムで、会話そのものが制御フローになるという斬新な仕組みを導入している。

通常の手続き型などでは　if 条件: ... else: ... のようにプログラミングで制御していた。

本プログラミングパラダイムはその分岐をエージェントに任せており、例えば何かの問を解く際は、問題を解くエージェントとその答えがユーザーの要求を満たしているか検査するエージェントに分けて、検査エージェントがYES or NOを出しその後の分岐を変えていくという流れになる。
AutoGenは従来の単一LLMよりも数学問題解決やコーディング支援など6つの領域において優れた性能を発揮していることから、エージェントを専門性によって分けて協働することの有意義性が確認された。

 考察（感想）本論文は2023年8月に出されたものであり、AIエージェントの走りとなった論文です。
世間ではすっかりAIエージェントが浸透しており、AutoGenをはじめLangGraphやCrewAIなどを使用したエージェントが作られていますが、執筆から2年しかたっていないことに驚きです。

AI分野は進化が目まぐるしくキャッチアップが大変ですが、その分わくわくが多くて楽しい領域ですよね。
LangGraphを用いたAIエージェント個人開発を進めており、AIにノードの分岐を判断させるというコードを書いていたのですがConversation Programmingという概念は知りませんでした。

言われてみればかなり特殊なことをしていますよね。
自分が使っている道具を深く理解することによって今後エンジニアに必要とされるアーキテクチャ設計力が身につくのでは...と頭では理解しているものの、

開発しているときはミクロに意識を持っていかれて俯瞰した思考ができなくなることを認識できました。
実務をこなしながら基礎を固め最新事例をキャッチアップすることは難しいですが、それぞれのキャッチアップを継続することによって知識がつながっていく感覚もあるので、これからもインプットとアウトプットを繰り返していけたらと思います。

初めに

論文要約

論文詳細

論文背景

論文内容

結果

マルチエージェントとは

プログラミングパラダイムとは

個人的感想

論文まとめ

考察（感想）

Discussion