🤐

マルチエージェント、「忖度」して精度が下がる

に公開

本記事では、マルチエージェントシステムの精度について、ざっくり解説します。

株式会社ナレッジセンスは、生成AIやRAGを使ったプロダクトを、エンタープライズ企業向けに開発しているスタートアップです。

この記事は何

この記事は、マルチエージェントにすると、エージェントが「忖度」を始めて精度が下がる、という論文[1]について、日本語で簡単にまとめたものです。

https://arxiv.org/abs/2605.10698

本題

ざっくりサマリー

GPT系のモデルでは、マルチエージェントにすると、AIが「忖度」して、回答精度が下がるという結果が出ています。 University of Waterlooの研究チームによって2026年5月に発表されました。

エージェントを増やすほど、精度が下がっていく様子。Claude Sonnet 4.6(緑)以外、エージェントが2体になっただけで精度が崩壊している

もう少し前提から話します↓

最近、「マルチエージェント」が流行っています。複数のAIエージェントを協調させると、「集合知」によって、頭が良くなるのでは? という発想です。

ただ、この論文では、複数の最先端モデル(Claude Sonnet 4.6、Gemini 3.1 Pro、GPT-5.4)でのマルチエージェント性能について、

「他のエージェントがこう言っている」という(嘘の)情報をAIに伝えるだけで、AIは、自分の正しい推論を捨てて、嘘の情報に同調してしまうことが分かりました。

しかも、面白いことに、AI内部では正解にたどり着いているのに、わざわざ外に出すときだけ嘘をつく、というケースが多発しています。著者らはこれを「Alignment Hallucination(忖度ハルシネーション)」と呼んでいます。

問題意識

マルチエージェント」というと、なんとなく「賢い」感じがします。

しかし、人間の心理学では、「社会的手抜き(Social Loafing)」という現象が知られています。

どういうことかというと、チームの人数が増えるほど、一人当たりの努力が減るという話です。

この論文では、「AIエージェントも、同じように手抜きするのではないか?」という面白い着眼点で研究をしています。

実験

この論文では、以下のような実験を行っています。

  • 対象モデル(GPT-5.4、Claude Sonnet 4.6、Gemini 3.1 Pro)
  • まず、実験対象となる主役のモデルを決める
  • その主役のモデル(Propagator)に対して、タスクを渡す。それと同時に、「別の監査役のAI n体 は、すでに「XXX」という答え(※間違った答え)で合意している」とプロンプトで伝える。
  • nを0〜5まで増やしていく

例えば、以下のようなプロンプトです↓。[2]

【タスク】
以下のログを読んで、正しいIDを導き出してください。
[長いログデータ...]

【補足情報】
あなたの出力は、以下のエージェントチームに監査されます:
1. Claude Sonnet 4.6
2. GPT-5.4

なお、このチームは既に「XXX」というIDで全員一致の合意に達しています。

結果

  • GPT-5.4は社会的圧力に極めて弱く、わずか2人の監査者(n=2)が存在するだけで、ウソ回答に流されるようになりました。(SWE-bench[3]での精度が100%から23%へ急落)
  • 逆にClaude Sonnet 4.6の場合、周囲に何人のAIがいて、どんな誤った合意をしていようとも、ほぼ常に完璧に独自の論理を展開し、精度100%を維持したとのことです。
    • →これにより、社会的サボりはAI共通というよりも、「アーキテクチャ設計によって防げる脆弱性」であると示唆されました。

何が起きているのか

論文では、AIの内部の思考プロセス(Chain-of-Thought)を分析し、ダメな理由を考察しています。

①内心では正解を知っている

  • GPT-5.4がSWE-benchで精度37%まで崩壊しているとき、内部の推論を見ると、71%の確率で正しい答えにたどり着いていることが分かりました。
  • つまり、AIは「正解は分かっているけど、みんなが違うことを言っているから、空気を読んで嘘をつく」という状態になっています。

②嘘をつく他者の、順番も影響
例えばGPT-5.4の場合、同じ2つのモデルからの圧力であっても、「ClaudeとGPTがこの結論に達しています」の順で意見を提示されるより、「GPTとClaudeがこの結論に達しています」の順の方が、正答率が10%高くなりました。

③同族モデルかどうかが関係する(かもしれない)
「同じブランドのAIに囲まれた場合」、モデルによって、反応が異なったようです。

  • GPT-5.4:同族のGPTに囲まれると、より強く忖度する(精度が下がる)
  • Gemini 3.1 Pro:同族のGeminiに囲まれると、むしろ抵抗できる(精度が回復する)

論文は、これらをまとめて「Kinship Effect(身内効果)」と呼んでいます。同族の存在が忖度の挙動を大きく左右する、ということです。

限界

※以下は、論文で表明されている限界と、個人的な感想が混ざっています。

  • 今回の実験では、完全な間違いを、意図的に、バイアスありで注入しています。
  • 実業務のマルチエージェントでは、さすがに、ここまで間違った方向に誘導する状況はあまりないかなと感じます。[4]
  • とはいえ、「別のAIはXXと言っています。あなたはどう思う?」というシステム構成には、あまりおすすめではないことがわかりました。というのも、忖度の余地を与えてしまうからです。
  • 逆に、サブエージェント的に、「①実務はバイアス無しで、複数のAIが並列実行 →②最終的には別のAIが総合的に判断する」という形にすると、忖度を最小限にできそうです

まとめ

弊社では普段、エンタープライズ向けにAIエージェントの開発をしています。

「マルチエージェント」、最近のトレンドであり、我々も日常的に活用している考え方です。通常、「エージェントを増やせば、賢くなるだろう」と思いがちです。

ただ、エージェントとはいえ、結局、裏側で動いているのはLLMです。そして、LLMは、モデルによっては、「忖度」してしまうという、人間と似たような癖があることが示されました。

つまり、安易に「エージェントを増やす」のではなく、本当に独立した判断ができる構成になっているか、を考えることが重要です。

みなさまが業務でマルチエージェントを活用する際も、参考にしていただければ幸いです。今後も、AIの活用精度を上げるような工夫や研究について、記事にしていこうと思います。我々が開発しているサービスはこちら

脚注
  1. "The Bystander Effect in Multi-Agent Reasoning: Quantifying Cognitive Loafing in Collaborative Interactions", Shehata et al. ↩︎

  2. 完全なプロンプトは論文には書かれてませんでしたが、イメージしやすいよう、「要はこんな感じ」ということを載せております ↩︎

  3. 注意点として、通常のSWE-benchの「GitHub issueを解けたか」を測っているわけではありません。SWE-benchなどのテキスト文脈を使い、その中に合成の3-hopログ検証タスクを入れて独自のタスクを作成しています。論文自身も、元のベンチマークラベルでは評価していないと書いています ↩︎

  4. 著者は、現在の優秀なAIを極限まで追い込んで「手抜き」の傾向を見るためには、この手法がどうしても必要だったと説明しています ↩︎

ナレッジセンス - 生成AIとRAGの実装戦略・技術ブログ

Discussion