😁

Magentic-One 汎用的なマルチエージェントシステム論文(暫定版)

2025/01/06に公開

前書き

去年、勉強会では何回か話してたが記事にしてなかったが、徐々に書きたくなった

1. どんなもの?

Orchestrator(リーダー)、FileSurfer,WebSurfer,Coder,Computer Terminalのエージェントがみんなで複雑なタスクをこなす。

2. 先行研究と比べてどこがすごいの?

  • 汎用的に使える
  • 標準的な評価ツールも作成(AutoGen Bench)

3. 技術や手法の"キモ"はどこにある?

Orchestrator(リーダー)がタスク台帳、進捗台帳を更新しながら流れを管理
内部ループでは以下の点を考えて、進捗台帳を更新
• リクエストは完全に満たされていますか (つまり、タスクは完了していますか)?
• チームはループまたは繰り返していますか?
• 前進していますか?
• 次にどのエージェントが話す必要がありますか?
• このチーム メンバーにどのような指示または質問をする必要がありますか?

4. どうやって有効だと検証した?

  • GAIA, WebArena, AssistantBench のベンチマークでSOTAと比べた

GAIA タスクの例: 米国大統領が生まれた米国内の都市のうち、最西端から最東端まで東に向かって最も離れている 2 つの都市を、都市名のみで示してください。アルファベット順で、コンマ区切りのリストで示してください。

AssistantBench タスクの例: シカゴのリンカーン パークから 2 ブロック以内のスーパーマーケットで、15 ドル未満ですぐに食べられるサラダを販売しているのはどれですか。

WebArena タスクの例: Showerthoughts フォーラムに最新の投稿をしたユーザーに対して、賛成票よりも反対票が多かったコメントの数を教えてください。

結果はダントツって感じでもないけど、これ一つでいろんなベンチマークでいい感じだし、一位のも5個ある

5. 議論はあるか?

以下のようにエラー原因わかっているので、これを対処するだけでも精度改善するが。めっちゃ有効な対処方法が書かれていない? 
不十分な行動を検知するいい方法、検知したあと改善するいい方法は?

あとがき

記事よかったら、いいね♡ 押してね!

Discussion