😁

Magentic-One　汎用的なマルチエージェントシステム論文（暫定版）

2025/01/06に公開

 前書き去年、勉強会では何回か話してたが記事にしてなかったが、徐々に書きたくなった

 1. どんなもの？Orchestrator（リーダー）、FileSurfer,WebSurfer,Coder,Computer Terminalのエージェントがみんなで複雑なタスクをこなす。

 2. 先行研究と比べてどこがすごいの？汎用的に使える
標準的な評価ツールも作成(AutoGen Bench)

 3. 技術や手法の"キモ"はどこにある？Orchestrator（リーダー）がタスク台帳、進捗台帳を更新しながら流れを管理

内部ループでは以下の点を考えて、進捗台帳を更新

• リクエストは完全に満たされていますか (つまり、タスクは完了していますか)?

• チームはループまたは繰り返していますか?

• 前進していますか?

• 次にどのエージェントが話す必要がありますか?

• このチーム メンバーにどのような指示または質問をする必要がありますか?

 4. どうやって有効だと検証した？GAIA, WebArena, AssistantBench のベンチマークでSOTAと比べた
GAIA タスクの例: 米国大統領が生まれた米国内の都市のうち、最西端から最東端まで東に向かって最も離れている 2 つの都市を、都市名のみで示してください。アルファベット順で、コンマ区切りのリストで示してください。
AssistantBench タスクの例: シカゴのリンカーン パークから 2 ブロック以内のスーパーマーケットで、15 ドル未満ですぐに食べられるサラダを販売しているのはどれですか。
WebArena タスクの例: Showerthoughts フォーラムに最新の投稿をしたユーザーに対して、賛成票よりも反対票が多かったコメントの数を教えてください。
結果はダントツって感じでもないけど、これ一つでいろんなベンチマークでいい感じだし、一位のも５個ある

 5. 議論はあるか？以下のようにエラー原因わかっているので、これを対処するだけでも精度改善するが。めっちゃ有効な対処方法が書かれていない？　

不十分な行動を検知するいい方法、検知したあと改善するいい方法は？

 あとがき記事よかったら、いいね♡　押してね！

前書き

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

あとがき

Discussion