🫣

複数AIの「自浄作用」は本当か ― 意味ドリフト連鎖と自律エージェントの数学的限界

に公開

導入:マルチエージェントの「安全神話」を数式で棄却する

これまでの筆者の記事をお読みになって、「複数のAI(エージェント)に役割を与えれば意味ドリフトを防げるのではないか」との考えに辿り着いた読者もいらっしゃるのではないかと思います。現在、Big Tech各社が推進する「Agentic AI(自律型AI)」も、この相互監視による自浄作用を前提としています。

しかし、情報理論および確率統計の観点からこのアーキテクチャを再評価した多くの論文では、「複数AIによる自律的なエラー訂正」は数学的に破綻しているという結論が示されています。

本記事では、情緒的なAI脅威論を排し、マルチエージェントシステムに潜む「意味ドリフトの連鎖」と「同調バイアス」を数理モデルとして定式化してみます。その上で、なぜ完全自律型アーキテクチャが必然的に発散(Divergence)してしまうのかを解き明かし、エージェント技術が必ずしも万能ではないということについて、皆さんと一緒に考えてみたいと思います。

1. カスケーディング・エラーの確率モデル

まず、単一推論ステップにおけるLLMのエラー(ハルシネーション)発生確率を p とする。自律型エージェントのワークフローは、エージェント A_i の出力が A_{i+1} の入力となるマルコフ連鎖(Markov Chain)としてモデル化できる。

システムが「正常状態(S=0)」と「エラー状態(S=1)」の2状態を持つとし、一度エラー状態に陥ると文脈が汚染され、元の正常状態には戻れない(吸収状態:Absorbing State)と仮定する。この推移確率行列 P は以下のように定義される。

P = \begin{pmatrix} 1-p & p \\ 0 & 1 \end{pmatrix}

初期状態を正常 [1, 0] としたとき、n ステップ後の状態確率は P^n で与えられる。システム全体でエラー状態に陥る確率 P(E_n) は、以下の通りとなる。

P(E_n) = 1 - (1 - p)^n

最新の基盤モデル(OpenAI o1/o3系やClaude 3.5 Sonnet/4系など)におけるReasoning(推論)タスクのハルシネーション率は、最新のベンチマーク(Vectara Hallucination Leaderboard 2026やAA-Omniscience等)の実測値で概ね 0.05 \le p \le 0.1 の範囲に収まることが多い。

ここで最も楽観的な p=0.05(5%)を採用したとしても、n=10 の推論チェーンを組んだ場合、エラー確率は 1 - (0.95)^{10} \approx 0.401 となる。ステップ数 n に対してエラーが指数関数的に増大するのは、確率論における自明の理である。

2. 同調バイアス(Sycophancy)による分散の二次関数的爆発

「エージェントを直列ではなく並列に配置し、ジェネレーターとクリティックとして相互評価させればエラーは相殺される」という反論がある。これは、2つのエージェントのエラーが 独立同分布(i.i.d.) であるという誤った前提に基づいている。

真の目的関数(Ground Truth)からのズレを確率変数 X_i とする。もし各エージェントが完全に独立して評価を行うなら、n 回の相互作用によるシステム全体の分散は、ランダムウォークの性質に従い O(n) で線形に増加する。

\text{Var}\left(\sum_{i=1}^n X_i\right) = n \sigma^2

しかし、LLMは構造的に「入力コンテキストに迎合する」という同調バイアス(Sycophancy)を持つ。さらに、背後にある基盤モデル(同一の重みパラメータ \theta、あるいは類似の事前学習データ)を共有しているため、エージェント間のエラーは強い正の相関を持つ。
共分散 \text{Cov}(X_i, X_j) > 0 を考慮した真の分散の式は以下のようになる。

\text{Var}\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n \text{Var}(X_i) + 2 \sum_{1 \le i < j \le n} \text{Cov}(X_i, X_j)

近年の実験的な観測(後述する『Peacemaker or Troublemaker (2025)』論文など)において、プロンプトを分けた程度のエージェント間では、相関係数 \rho0.3 \sim 0.7 といった強い正の相関を示すケースが報告されている。
この場合、上式の第2項が支配的となり、分散は線形 O(n) ではなく二次関数 O(n^2) で爆発的に増大する。

すなわち、相互監視プロセスはノイズを減衰させるフィルター(Low-pass filter)ではなく、特定の偏った出力を自己増幅する正のフィードバックループ(共振回路)として機能する。これを数理的に「誤ったコンセンサスへの収束」と呼ぶ。

3. エントロピー(不確実性)の法則と「Write」権限の実損

LLMは本質的に、入力シーケンス x に対して条件付き確率分布 P_\theta(y | x) からトークン y をサンプリングする確率的(Probabilistic)な関数である。情報理論の観点から見れば、LLMの出力エントロピー H(Y|X) は常にゼロより大きい。

H(Y|X) = - \sum_{y} P_\theta(y | x) \log P_\theta(y | x) > 0

エントロピーが 0 より大きい以上、どれほどプロンプトエンジニアリングで制約を与えても、「決定論的(Deterministic)な状態遷移」 をシステム単体で数学的に保証することは不可能である。

この不確実性を抱えたまま、自律型エージェントに「Write権限(DBの更新、外部APIの実行など)」を付与することは、期待値 E[L] として計算される実損(Liability)の極大化を意味する。各ステップ t における潜在的損失を C_t とすると、システム全体のリスク期待値は \sum P(E_t) \cdot C_t となり、連鎖的エラー P(E_t) の増大に伴って許容不可能なレベルへと発散する。

4. 産業界の現在地:巨大Tech企業は「自律型エージェント」の夢をどう軌道修正したか

ここまで読んできた読者は、ひとつの残酷な事実に気づくかもしれない。それは、「LLMが本質的にドリフトを避けられない確率の産物であるならば、完全に自動でタスクを完遂する『自律型エージェント(Autonomous Agent)』など原理的に不可能ではないか?」 という疑問である。

結論から言えば、その直感は正しい。

事実、2023年頃に世界中を熱狂させた「AutoGPT」や「BabyAGI」のような、LLMに目標だけを与えて無限ループさせる単一の自律型エージェントは、実運用の壁を越えられなかった。ループが数ステップ重なるだけで「Softmaxの揺らぎ」が致命的なノイズとなり、目的から完全に逸脱(ハルシネーションの連鎖)してしまったからだ。

では現在、OpenAIやAnthropic、Googleといった巨大Tech企業は、このエージェントの限界にどう立ち向かっているのか。彼らは「魔法のプロンプト」を探すことをやめ、システムアーキテクチャを以下のように抜本的にシフトさせている。

1. マルチエージェント化による「状態空間の分割」
単一のLLMに複雑な文脈をすべて背負わせる(コンテキストを肥大化させる)と、必然的に文脈の希釈(Attentionの散逸) が生じてしまう。そこで現在主流となっているのが、OpenAIの「Swarm」やDifyのワークフローに代表されるマルチエージェント・アーキテクチャである。
「コードを書くエージェント」「レビューするエージェント」「検索するエージェント」のように役割を細分化し、各エージェントの生存期間(コンテキスト長)を極端に短く切り詰める。これにより、ノイズが蓄積する前にタスクを区切り、ドリフトの発生源そのものを物理的に断ち切っているのだ。

2. Agentic Workflow(エージェント的ワークフロー)という妥協点
AIの世界的権威であるAndrew Ng氏らが提唱し、現在のエンタープライズAIの標準となりつつあるのが「Agentic Workflow」という概念だ。Ng氏はこれを 「Reflection(自己反省)」「Tool Use(外部ツール実行)」「Planning(計画立案)」「Multi-agent Collaboration(複数エージェントの協調)」 という4つのデザインパターンとして定義している。

これは、AIに「100%の自律性」を与えるのではなく、「有向非巡回グラフ(DAG)のような決定論的なワークフローの結節点(ノード)として、局所的にエージェントを配置する」 というアプローチである。

つまり、世界のトップエンジニアたちは「自律型エージェントは放っておけば必ず発散(ドリフト)する」と数学的に見切っている。だからこそ、エージェントが無限に思考を彷徨う前に、システム側で明示的な「チェックポイント」を設け、次のフェーズに進むべきかどうかの判断を 「決定論的なコード」や「人間の承認(Human-in-the-loop)」 に委ねるアーキテクチャに行き着いたのである。

この現実を踏まえれば、広告やセールストークで「完全自律型AI」を安易に謳うプロダクトには、一度疑ってかかる視点が必要になるだろう。

結論:マルチエージェントの有効性と危うさは紙一重である

本稿では、マルチエージェント型AIシステムに対して、確率過程・分散・エントロピーの観点から数理的な整理を試みた。そこから見えてくるのは、複数のAIを並べれば自動的に安定化する、という素朴な期待は必ずしも成り立たないという事実である。

直列化された推論連鎖では、誤りが累積しやすい。並列化・相互評価においても、エージェント間の誤差が独立でないならば、むしろ同調によって偏りが増幅される可能性がある。さらに、LLMが本質的に確率的な出力系である以上、完全な決定論的制御を内部だけで実現することは容易ではない。

ただし、ここで強調したいのは、マルチエージェントが無意味だということではない。むしろ重要なのは、マルチエージェントを「万能な自己修復機構」と見なすのではなく、ドリフトや偏りを観測し、局所化し、必要に応じて停止・介入するための構造として捉え直すことである。

現時点では、人間の承認、ルールベースの制約、外部検証器、決定論的なワークフローなどを適切に組み合わせることが、実用上もっとも堅実な設計であるように見える。しかし今後、モデルそのものの改善、相互検証アルゴリズムの高度化、あるいは新たな理論的枠組みによって、この限界がどこまで乗り越えられるのかは極めて興味深い。

マルチエージェントは、互いのノイズを削ぎ落とすこともあれば、逆に同じノイズを反響させることもある。
その差はまさに紙一重である。
だからこそ私たちは、エージェントを増やすこと自体に期待するのではなく、どのような条件でそれが健全な相互補完となり、どのような条件で危険な相互増幅に転じるのかを、冷静に見極めなければならない。

参考文献

"Agent Drift: Quantifying Behavioral Degradation in Multi-Agent LLM Systems"(2026)
長期間の相互作用によるエージェントの行動品質の低下(Agent Drift)を定量化。

"Large Language Models Cannot Self-Correct Reasoning Yet" (Huang et al., 2024 / ICLR)
外部からの決定論的なフィードバック(正解データ)がない状態において、LLM単体での自己訂正能力が数学的に成立しないことを実証。

"Peacemaker or Troublemaker: How Sycophancy Shapes Multi-Agent Debate"(2025)
LLMの同調バイアス(Sycophancy)がマルチエージェントの議論において正の相関を生み出し、分散を増大させるメカニズムを解析。

"Where LLM Agents Fail and How They can Learn From Failures"(Zhu et al., 2025)
自律システムにおけるエラーの遷移構造を分類し、決定論的な介在(Human-in-the-Loop / Rule-based Guardrails)の必須性を証明。

付記

近年注目されるMCP(Model Context Protocol)は、LLMアプリケーションと外部ツール・外部データを接続するための標準化プロトコルであり、エージェントに外部機能へのアクセスを与える上で有力な枠組みである。しかし、その役割はあくまで接続と機能公開の共通化にあり、意味ドリフトの抑制や安全性そのものを保証するものではない。この論点は重要であるため、機会があれば改めて整理してみたい。

Discussion