Claude Code Agent Teamsは本当に効くのか?──「AIは増やせば賢くなる」を5つの研究で検証した
はじめに:なぜチーム化・並列化を目指すのか
2025年から2026年にかけて、AI開発ツールの世界では「マルチエージェント」が最大のバズワードになっています。Claude CodeのAgent Teams、GitHub Copilotのエージェント機能、Devin──複数のAIエージェントがチームとして協調し、人間の開発チームのように働く未来が語られています。
AnthropicもClaude Codeの実験的機能として「Agent Teams」を導入しました。リーダーエージェントがタスクを分割し、複数のチームメンバーが並列で作業し、結果を統合する。確かに魅力的なコンセプトです。
私自身、この機能には素直にワクワクしました。公式ドキュメントを読んだ瞬間、「並列コードレビューに使えるのでは?」「ワークフローに組み込もう」と考えました。
しかし、ふと立ち止まって考えたのです。
「なぜチーム化・並列化を目指すんだろう?」
楽しいから?それとも本当に効果があるから?
この問いを出発点に、研究論文を調べていった結果、「AIを増やせば品質が上がる」という直感が科学的にどう評価されているのかが見えてきました。本記事はその探索の記録です。
手段と目的を切り分ける
冷静に振り返ると、マルチエージェントへの関心は 「複数のAIが協調して動く仕組みを設計すること自体が知的に面白い」 という動機が大きいことに気づきます。
Agent Teamsのドキュメント自体が、実はこの点について正直に書いています。
エージェントチームは調整オーバーヘッドを追加し、単一セッションよりも大幅に多くのトークンを使用します。
Anthropic自身が「大半のケースでは単一セッションかsubagentで十分」と認めているのです。チームが本当に効くのは、互いに異議を唱え合う必要がある調査・レビュー、完全に独立したモジュールの並列実装、複数仮説の同時検証といった限定的な場面です。
しかし、「公式がわざわざ作ったのだから何か意味があるはず」とも思いました。包丁の例えで言えば、牛刀は確かに優れた道具だけど、リンゴの皮むきにはペティナイフの方がいい。道具の良し悪しではなく、自分の手元の作業との適合度の問題です。
では、マルチエージェントの効果について、学術研究は何と言っているのでしょうか?
公式が作った理由 ≠ あなたに効果がある理由
Anthropicがこの機能を作った理由を構造的に分析すると、以下が見えてきます。
ビジネス的な理由がまず大きい。 チームメンバー1人ごとに独立したコンテキストウィンドウが必要になるため、トークン消費がエージェント数に比例してスケールします。これはAnthropicにとって直接的な収益ドライバーです。
エンタープライズ向けのセールスナラティブ。「AIエージェントのチームが御社の開発チームを支援します」は、経営層に刺さるストーリーです。
競争上の差別化。 GitHub Copilot、Cursor、Devinとの機能競争において、「マルチエージェント対応」はチェックリスト上の必須項目になっています。
将来のモデル改善への布石。 現時点では効果が限定的でも、モデルの能力向上に伴い有用になる可能性はあります。インフラを先に整えておく戦略です。
技術的に本当に効く場面は、数万〜数十万行のコードベースで1つのコンテキストウィンドウに収まらないレビューや、大企業のモノレポでフロントエンド・バックエンド・インフラが完全に分離されたPR、本番障害の調査で複数の仮説を同時に検証する必要があるとき——つまり 「一人のAIでは物理的にコンテキストが足りない規模」 で初めて真価を発揮します。
「公式が作ったから意味がある」は権威への依拠であって、自分の状況への適合判断ではありません。
研究が示す「不都合な真実」
「AIがチームで自律的に動いたらすごい効果がありそう」──この直感が科学的に正しいのか。2024年から2025年にかけて、この問いに正面から答える大規模研究が複数発表されています。そして、その結論はかなり厳しいものでした。
Google Research・DeepMind・MIT の180構成実験
2025年12月、Google Research、Google DeepMind、MITの共同研究チームは「Towards a Science of Scaling Agent Systems」という論文を発表しました[1]。マルチエージェントシステムのスケーリング法則を科学的に導出した、2026年2月時点で最も体系的な研究です。
実験の規模は圧倒的です。
- 5つのアーキテクチャ:単一エージェント、独立型、中央集権型、分散型、ハイブリッド型
- 3つのLLMファミリー:GPT、Gemini、Claude
- 4つのベンチマーク:金融推論、Web巡回、プランニング、ワークフロー実行
- 合計180の構成を、ツール・プロンプト・トークン予算を統制した条件で評価
そして導かれた3つの核心的発見は、「エージェントを増やせば良くなる」を科学的に否定するものでした。
発見1:能力飽和(Capability Saturation)
単一エージェントのベースライン精度が約45%を超えると、マルチエージェント協調は効果が減少するか、負のリターンをもたらす(β = -0.408, p < 0.001)
すでにそこそこ賢いAIにチームメンバーを追加しても、むしろ悪化するということです。
発見2:トポロジー依存のエラー増幅
独立エージェントはエラーを17.2倍に増幅する。中央集権型(リーダー+ワーカー)でも4.4倍。
あるエージェントの誤った出力が別のエージェントの入力になり、エラーが連鎖的に拡大します。
発見3:タスク性質による劇的な差
| タスク性質 | マルチエージェントの効果 |
|---|---|
| 並列化可能(金融分析等) | +80.9%改善 |
| 動的探索(Web巡回等) | +9.2%改善 |
| 逐次推論(プランニング等) | -39〜70%悪化 |
エージェントを増やすことが劇的に効く場面と、劇的に悪化する場面が明確に分かれていたのです。
「討論すれば賢くなる」も幻想だった
マルチエージェントの有力なアプローチとして「エージェント間の討論(Multi-Agent Debate: MAD)」があります。複数のAIが互いの回答を批評し合い、合意に至るというものです。直感的には効きそうですが、こちらも研究結果は厳しいものでした。
NeurIPS 2025 スポットライト論文「Debate or Vote」[2]は、7つのNLPベンチマークで検証し、衝撃的な結論を導きました。
マルチエージェント討論の性能向上の大部分は、単なる多数決投票(Majority Voting)によるものであり、討論プロセス自体の寄与ではなかった。
さらに、討論プロセスをマルチンゲール(確率過程の一種)としてモデル化し、討論単体では期待正解率を改善しないことを数学的に証明しました。
ICML 2024「Should we be going MAD?」[3]も同様の結論です。
マルチエージェント討論システムは、現在の形では、self-consistency やアンサンブルといったより単純な手法を安定して上回ることができない。
ICLR 2025 ブログポスト[4]でも、5つのMADフレームワークを9つのベンチマークで評価した結果:
現在のMAD手法は、より単純な単一エージェント戦略を一貫して上回ることに失敗しており、追加の計算リソースを投入しても改善しない。
つまり、「議論すれば正解率が上がる」のではなく、単に複数の回答から多数決で選ぶだけで十分だったのです。
じゃあ、コーディングツールがチームになったとて
ここまでの研究の知見をコーディングに当てはめると、結論はかなり厳しいものになります。
コードを書く行為は本質的に逐次推論タスクです。 ファイル間の依存関係、型の整合性、状態の追跡──全部「長い依存チェーン」の塊です。これはまさにKim et al.の研究[1:1]が「マルチエージェントで39〜70%悪化する」と示した領域です。
さらにClaude Code単体の精度は既にかなり高い。同研究が示した「45%閾値」を余裕で超えています。つまり能力飽和の条件にも該当します。
加えて、コーディングにおけるマルチエージェントには構造的な問題があります。2025年1月のサーベイ論文[5]も、マルチエージェント協調メカニズムの主要課題として「通信オーバーヘッド」「エラー伝播」「調整コスト」を挙げており、以下の問題は個別事例ではなく構造的なものです。
- 情報の断片化 — 各エージェントが独自のコンテキストウィンドウで動くので、コードベース全体の整合性を誰も把握していない
- 調整税(coordination tax) — エージェント間のメッセージングに消費されるトークンが、実際のコーディングに使えるトークンを圧迫する
- エラーの連鎖 — あるエージェントの誤った実装を別のエージェントが前提として使い、バグが増幅される
ただし、全部ダメとは言えない
Agent Teamsのドキュメントが挙げているユースケースを研究と照合すると、効果が期待できる領域と期待できない領域がはっきりします。
| ユースケース | タスク性質 | 研究の予測 |
|---|---|---|
| 並列コードレビュー | 並列・読み取り専用 | 効果あり得る |
| 競合仮説でのデバッグ調査 | 並列探索 | 効果あり得る |
| フロントエンド+バックエンドの同時実装 | 並列だがファイル競合リスク大 | 微妙 |
| 同一モジュールの機能追加 | 逐次依存 | 悪化の可能性高い |
要するに 「コードを読む」作業は並列化の恩恵がある。「コードを書く」作業は大半が逆効果。
Anthropicもこれを分かっているからこそ、ドキュメントで「調査とレビューから始めろ」「同じファイルを編集するな」と繰り返し警告しています。あれは「ベストプラクティス」ではなく構造的制約の表明です。
実践的な判断基準
2025年の研究結果を踏まえた、2026年現在での判断フローを提案します。
タスクを分析
├── 完全に独立した並列サブタスクに分解可能?
│ ├── Yes → 各サブタスクで同じファイルを触らない?
│ │ ├── Yes → Agent Teams / マルチエージェントが有効
│ │ └── No → 単一エージェント + subagent
│ └── No → 単一エージェントが最適
├── コードを「読む」作業?(レビュー、調査、分析)
│ └── Yes → マルチエージェントが有効
├── コードを「書く」作業?
│ └── Yes → ほぼ確実に単一エージェントが最適
└── 単一エージェントで既にそこそこの品質が出ている?
└── Yes → エージェント追加は逆効果の可能性
おわりに:ワクワクと実効性を分けて考える
本記事は、Claude Code Agent Teamsのドキュメントを読んで「面白そう、ワークフローに組み込もう」と思ったところから始まりました。
「なぜチーム化を目指すんだろう?」 と自問したとき、正直な答えは**「楽しいから」**でした。複数のAIが協調して動く仕組みは、設計すること自体が知的に面白い。
しかし、楽しいことと、今やるべきことは違います。 研究論文を調べてみたら、「AIを増やせば品質が上がる」という直感は科学的にほぼ否定されていました。
同論文を解説したMedium記事「Stop Blindly Scaling Agents: A Reality Check from Google & MIT」(2025年12月)の結語が、この状況を端的に言い表しています。
「2024年が実験的スウォームの年だったとすれば、2025年はエージェントエンジニアリングの年だ」
そして2026年の今、この言葉は現実のものとなりつつあります。闇雲にエージェントを増やす時代は終わり、タスクの性質に基づいて適切なアーキテクチャを選ぶ時代が来ています。
新しいツールや機能が出たとき、just for fun で触ることと、実運用に組み込むことを意識的に分ける。それが、AIに振り回されず道具として使いこなすための、最もシンプルな原則ではないでしょうか。
参考文献
-
Yubin Kim et al. "Towards a Science of Scaling Agent Systems." arXiv:2512.08296, December 2025. https://arxiv.org/abs/2512.08296 ↩︎ ↩︎
-
"Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models?" NeurIPS 2025 Spotlight. https://openreview.net/forum?id=iUjGNJzrF1 ↩︎
-
Andries Petrus Smit et al. "Should we be going MAD? A Look at Multi-Agent Debate Strategies for LLMs." ICML 2024, PMLR 235:45883-45905. https://proceedings.mlr.press/v235/smit24a.html ↩︎
-
"Multi-LLM-Agents Debate - Performance, Efficiency, and Scaling Challenges." ICLR Blogposts 2025. https://iclr-blogposts.github.io/2025/blog/mad/ ↩︎
-
Khanh-Tung Tran et al. "Multi-Agent Collaboration Mechanisms: A Survey of LLMs." arXiv:2501.06322, January 2025. https://arxiv.org/abs/2501.06322 ↩︎
Discussion