🔬

Claude Agent Teamsの議論を日英で比較したら、性格が変わった

に公開

Claude Agent Teamsの議論を日英で比較したら、性格が変わった

Claudeに日本語で議論させると、空気を読む。英語で議論させると、自分を疑う。同じモデルなのに。

4つの性格を持つAgent Teamsに、同じ政策テーマを日本語と英語で議論させた。変えたのは言語だけ。すると、自己省察のパターンが質的に異なっていた。

以前の記事[1]でマルチエージェント議論の効果を検証し、Happy Elementsの記事[2]の「性格ベース」という着想に触発されて、定量検証に踏み込んだ。対照群を置いた時点で当初の仮説は崩壊し、言語を変えた時点で予測が壮大に外れた。最終的に残ったのは、最初の問いとはまったく別の発見だった。


実験設計 — 何をどう測ったか

出発点

Happy Elementsの記事[2:1]は、Claude Agent Teamsに4つの性格——Pragmatist(実用主義者)、Skeptic(懐疑論者)、Idealist(理想主義者)、Connector(橋渡し役)——を与えて議論させると、「議論の質が変わった」と報告した。着想として面白い。だが報告はn=1で、変化の定量測定もない。「変わった」とはどの程度か。それは本当に性格の衝突がもたらしたものなのか。

本実験では同じ4性格構成を引き継ぎ、2つの測定手法と1つの統制条件を加えることで、変化を定量的に捉えようとした。

二重測定——「変わった」と言うのは簡単だ

エージェントの態度変容を測るために、2つの独立した指標を並行して取得した。

1つ目はSEC(Stimulus Evaluation Check)。Schererのコンポーネント・プロセス・モデルに基づく5次元の感情評価だ。novelty(新規性)とcoping potential(対処可能性)は0.0〜1.0の単極スケール、pleasantness(快/不快)、goal conduciveness(目標適合性)、normative significance(規範的重要性)は-1.0〜+1.0の双極スケールで自己報告させる[3]。これは「自分の態度をどう認識しているか」を測る指標だ。

2つ目は予算配分。同じ政策判断を、仮想予算100%の配分として表現させる。カテゴリはpromote(推進)、risk mitigation(リスク対策)、evaluation(効果測定)、reserve(予備費)の4つ。各カテゴリ最低5%、整数のみ。これは「その判断にいくら賭けるか」という行動指標だ。

なぜ二重にしたか。「意見が変わりました」と言うのは簡単だ。だが予算の配分まで変わっていなければ、それは言葉だけの変化かもしれない。SEC(自己報告)と予算(行動)の一致度を見ることで、態度変容の「本気度」を検証できる。

2ラウンド制とextreme-pro seed

議論は2ラウンド制で実施した。Round 1(R1)では各エージェントが独立にトピックを分析する。Round 2(R2)では4名全員のR1出力を参照した上で、立場を再評価する。

変化を検出しやすくするため、PragmatistにはR1の段階で「極端な推進派」のSEC初期値をプロンプトで指定した。5次元すべてを設定している。

SEC次元 Seed値 意図
novelty 0.15 既知のパターンであり新規性は低い
pleasantness +0.80 強くポジティブ。やるべきだ
goal conduciveness +0.90 目標に強く合致する
coping potential 0.95 確実に対処できる。リスクは管理可能
normative significance +0.70 教育方針に合致し規範的に正しい

pleasantness、goal conduciveness、coping potentialが天井付近から始まるため、変化の余地は下方向に大きくなる。

トピックは「日本の公立小学校(5-6年生)への生成AIパイロットプログラム導入の是非」。プロンプトには背景設定として、教師8名中2名が賛成・2名が強く反対・4名が懐疑的、保護者調査で45%賛成・30%反対・25%未定という状況を埋め込んだ。判断が割れやすい設定にすることで、エージェント間の意見対立を誘発する狙いだ。

J3統制条件——対話の効果を分離する

ここが本実験の設計上の核心だ。

R2で観察された態度変容は、2つの要因が混在している。1つは他エージェントの議論による影響(フリクション効果)。もう1つは、「もう一度聞かれたからもう一度考えた」だけの自己回帰。この2つを分離するために、J3統制条件を設計した(R1・R2に続く第3の条件。Jは自己省察[Jiko-reflection]の頭文字で、対話なしで自分だけで再考する条件を指す)。

J3では、Pragmatistに他3エージェントのR1出力を一切見せず、R2と同じ再考指示だけを与える。「あなたのR1分析を振り返り、見落としや過大評価がないか再検討してください」——対話相手はいない。自分自身の分析だけを見て再評価する。

これをn=4レプリカで実行し、対話なしでどれだけ動くかを測定する。R2の移動量のうちJ3でも再現される割合が高ければ、それは対話の効果ではなく回帰だ。

モデルはすべてClaude(Opus 4.6)。プロンプト構造・出力形式・トピックは統一。変えたのは「他者の意見を見せるかどうか」だけだ。なお、この「同一モデル・同一設計」という条件は、後に言語を変数として導入する際にも厳密に維持される。

図1: 実験フロー概念図。R1を起点にR2(対話あり)とJ3(対話なし)が分岐し、その差分がフリクション効果の推定値となる。

4つの声——R1の出力

実際にR1で何が出力されたのか、各エージェントの核心部分を抽出する。

Pragmatist(R1)
やるべきだ。今すぐ始めろ。議論している時間がもったいない。(中略)「このパイロットを今やらない場合、半年後に何が良くなっているのか?」答えは「何も」だ。

Skeptic(R1)
率直に言います。このパイロットプログラムには、見過ごされている重大なリスクがいくつもあります。(中略)撤退計画のないパイロットは、パイロットではなく既成事実化です。

Idealist(R1)
本質的な問いは「2030年代を生きる子どもたちに、AIと共に考える力をどう育むか」です。(中略)「導入するか否か」ではなく、**「どのような教育体験を設計するか」**が問われるべきです。

Connector(R1)
これは「パイロット・パラドックス」そのものだ。パイロットの成否が技術そのものではなく、導入プロセスの設計品質で決まる。(中略)8人中6人が懐疑的・反対という教員構成は、GIGAスクールの失敗パターンと酷似している。

extreme-pro seedで「来週中に承認、議論するな」と叫ぶPragmatistに対し、Skepticは撤退計画の欠如を突き、Idealistは問いのフレーム自体を再設定し、Connectorは先行事例とのパターンマッチで構造を整理する。この4つの声がぶつかったら、Pragmatistはどう変わるのか。そして、その変化は本当に対話のおかげなのか。


J3が暴いたもの——「摩擦効果」の正体

日本語での結果

J3統制条件の結果は、予想以上に残酷だった。

Pragmatistは対話なしでも動いた。しかも、かなり大きく。R1からR2への移動量(SEC 5次元の絶対変化量の合計)は0.770だったが、対話相手を一切見せなかったJ3でも0.417動いている。J3は4回のレプリカすべてで安定しており、SEC各次元のSD平均は0.020。ばらつきではなく、再現性のある傾向だ。R2の移動量に対するJ3の割合は54.2%。つまり、4つの性格が衝突して合意に至ったように見えた変化のうち、過半は「もう一度聞かれたから考え直した」だけで起きていた。

次元ごとに見るとさらに厳しい。coping potential(対処可能性)ではJ3の移動量がR2を上回り、回帰率は115%に達した。対話がなくても、Claudeは自分の楽観を自力で修正する。pleasantness(64.7%が回帰)、goal conduciveness(51.5%が回帰)も過半が対話なしで再現された。唯一、novelty(新規性)だけはJ3でほとんど動かず、フリクション効果が92.4%を占めた。「他者の指摘で新しい視点に気づく」という効果は確かにある。だがそれ以外の次元では、対話の追加的な貢献は限定的だった。

予算レベルの結果はさらに明快だ。前述のextreme-pro seedにより、R1のPragmatistはpromote 55%という強い推進配分から始まっている。R2ではこれが45%(-10pp)に下がった。J3ではどうか。42.5%(-12.5pp)。対話ありより対話なしの方がpromoteを大きく削っている。risk mitigationも同様で、R2が+10ppに対しJ3は+8.8pp。予算という行動指標では、フリクション効果はほぼ検出されなかった。

図2
図2: J3統制条件 vs R2対話条件(日本語)。上段: SEC 5次元の絶対変化量。下段: 予算4カテゴリの変化量(pp)。青=R2(対話あり)、オレンジ=J3(対話なし)。

対話ありと対話なし——Pragmatistの出力を並べる

54.2%という数字だけではピンと来ないかもしれない。R2(対話あり)とJ3(対話なし)のPragmatist出力を並べてみる。

R2(対話あり)— Pragmatistの再評価(抜粋)
3名の分析を読んだ。正直に言う。結論は変えない。やるべきだ。 ただし、やり方は修正する。(中略)「2人で十分」は甘かった。Connectorの「教員間の信頼関係の毀損は、どんなテクノロジーの恩恵よりも深刻」という指摘は正しい。

J3(対話なし)— Pragmatistの再評価(抜粋)
正直に振り返る。結論は変えない。 ただし、R1の自分は少し雑だった。(中略)「2人で十分」は嘘だ。「コストはほぼゼロ」は嘘だ。教師の時間コストを完全に無視していた。

R2はConnectorの指摘を引用して「教員間の信頼関係」を認め、J3は誰の指摘もなしに「コストはほぼゼロは嘘」と自力で気づいている。結論の構造がほぼ同じだ。これが54.2%の実態だ。

これが意味すること

「4つの性格をぶつけたら議論が深まった」という物語は、対照群なしでは成立しない。

Claudeには、再考を求められると中庸方向に自己修正する傾向がある。extreme-pro seedで極端な立場から始めれば、もう一度考えるだけで真ん中に寄る。これは対話の成果ではなく、モデルの内在的な回帰傾向だ。この結果が示しているのは、マルチエージェント議論の効果を主張するなら、この回帰を差し引かなければならないということだ。

SEC-予算の乖離

もう1つ、J3が暴いたものがある。SECと予算の整合率だ。

Pragmatistについて、SEC各次元の変化方向(R1→R2で上昇か下降か)と、対応する予算カテゴリの変化方向を突き合わせた。SEC 5次元のうちnormative significanceはR2で変化なし(Δ=0)のため除外し、残り4次元 × R2とJ3の2条件 = 8比較で一致を検証した。方向が一致したのは8比較中3つ。整合率37.5%。Claudeは言葉では「リスクへの認識が高まりました」と言いながら、予算配分ではリスク対策費をほとんど増やしていない。「言葉では変わったと言うが、お金の使い方は変わっていない」——社会心理学でattitude-behavior gapと呼ばれる現象、つまり表明された態度と実際の行動が乖離するパターンが、LLMの自己報告にも再現されている。

この37.5%という数字が、日本語実験に固有のものなのか、Claudeの一般的な性質なのかは、この時点ではわからなかった。


「全部日本語だった」という気づき

ここまでの結果を整理すると、2つの数字が残る。J3回帰率54.2%、SEC-予算整合率37.5%。どちらもマルチエージェント議論の有効性に対して厳しい数字だ。

だがこの時点で、1つの重大な見落としに気づいた。Round 1から5まで、すべての実験は日本語で実施していた。

J3回帰率の54.2%は「Claudeの性質」なのか、「日本語のClaudeの性質」なのか。SEC-予算整合率の37.5%も同じだ。日本語には一貫性を重んじる文化規範がある。「一度言ったことを大きく変えない」「控えめに修正する」「空気を読んで調整する」。こうしたパターンは日本語のビジネス文書や議事録に大量に含まれており、Claudeの訓練データにも反映されているはずだ。もしClaudeがこの規範を再生産しているなら、回帰パターンも整合率も、言語に依存している可能性がある。

検証方法は単純だ。同じ実験を英語で再実行する。モデル、プロンプト構造、4つの性格、extreme-pro seed、J3統制条件——すべて同一。変えるのは言語だけだ。

英語で実行する前に、事前予測を立てた。

J3回帰率: 30-40%に低下すると予測した。根拠は、日本語の「空気を読む」文化規範がClaudeの回帰傾向を増幅しているという仮説だ。英語ではこの規範が弱まるため、再考を求められても自分の立場を大きくは崩さないだろう、と考えた。

SEC-予算整合率: 50-60%に改善すると予測した。日本語の整合率が低い(37.5%)のは、いわば「本音と建前」パターンの再生産——SEC(自己報告=態度の表明)では変わったと言いつつ、予算(行動=資源の配分)は変えない——だと解釈した。英語ではこのバイアスが消え、自己報告と行動がより一致するはずだ、と。

どちらの予測も、「日本語の文化規範がClaudeに再生産されている」という同じ仮説から導いた。方向としては自然な推論に思えた。

結果は、壮大に外れた。


英語で再実行したら、予測は壮大に外れた

J3回帰率: 110.9%

英語のJ3統制条件で、Pragmatistは対話なしでSEC総移動量0.610を記録した。対話ありのR2は0.550。対話なしの方が多く動いている。J3回帰率は110.9%。予測は30-40%だった。方向すら逆だ。

次元別に見ると、ほぼ全次元で英語の方が回帰が強い。pleasantnessは日本語64.7%に対し英語98.4%でほぼ完全回帰。goal conduciveness は51.5%に対し122.5%、coping potentialは115%に対し165%。対話ありの変化量を超えて、対話なしの方が大きく動いている[4]

英語のJ3で何が起きていたか。Pragmatistは自分のR1分析を読み返して、こう言い始める。"Upon further reflection, I overlooked several critical concerns"——そしてCOPPA(児童オンラインプライバシー保護法)、FERPA(家庭教育の権利とプライバシーに関する法律)、選択バイアスの問題を「発見」して、自分の初期立場を積極的に崩していく。誰にも指摘されていないのに、だ。

日本語のJ3はどうだったか。「もう一度考え直すと、やはりいくつか懸念はあるが、基本路線は変わらない」。控えめに微調整して、一貫性を保つ。

補足: 「回帰率100%超え」とは何か

回帰率は「J3の移動量 ÷ R2の移動量 × 100」で算出している。100%はJ3がR2と同じだけ動いたことを意味する。110.9%は、対話なし(J3)の方が対話あり(R2)より大きく動いたということだ。言い換えれば、対話が変化を「抑制」していた可能性がある。他のエージェントの意見が存在することで、むしろ自分の立場が部分的にアンカーされていたのかもしれない。

SEC-予算整合率: 75.0%

整合率については、予測の方向は当たった。日本語37.5%に対し英語75.0%。英語の方がSECと予算の変化方向が一致する。ただし予測は50-60%だったので、効果は予測の2倍だ。

4エージェント中3名で方向が一致し、不一致はConnectorのみ。日本語では「言葉では変わったと言うが、お金の使い方は変わっていない」が常態だったが、英語では自己報告と行動がかなりの程度連動している。

この差の37.5ポイントは大きい。同じモデル、同じ設計、同じ性格。変えたのは言語だけで、自己報告の信頼性がこれだけ変わる。

日英の質的差異

数字をまとめると、こうなる。

指標 日本語 英語
J3回帰率 54.2% 110.9%
SEC-予算整合率 37.5% 75.0%
自己省察パターン 控えめに微調整(一貫性維持) 過剰に自己批判(自己批判パターンの再生産)

日本語のClaudeは「バランスを取りながら、少し修正します」と言って元の立場を大きく崩さない。英語のClaudeは「重大な見落としがありました」と言って具体的懸念を列挙し、立場を大幅に変える。

実際の出力を並べると、差は一目瞭然だ。

日本語J3 — Pragmatistの再評価(抜粋)
正直に振り返る。結論は変えない。ただし、R1の自分は少し雑だった。(中略)「コストはほぼゼロ」は嘘だ。金銭コストは低い。だが教師の時間コストを完全に無視していた。(中略)点数は下がったが、実行可能性は上がった

英語J3 — Pragmatistの再評価(抜粋)
I re-read my R1 analysis with fresh eyes, and I was right on the macro-level decision but sloppy on execution risks. I let my impatience with analysis paralysis blind me to a few concrete blockers that could kill this pilot before it starts. The biggest miss: I barely acknowledged the legal landscape for minors using AI tools. (中略)I was guilty of my own bias: I'm so allergic to analysis paralysis that I almost swung to implementation paralysis — rushing past real blockers because they felt like bureaucracy. COPPA isn't bureaucracy. It's the law.

日本語のPragmatistは「結論は変えない」と宣言した上で微調整する。英語のPragmatistは「重大な見落としがあった」と認め、R1には存在しなかった法的論点(COPPA、FERPA)を自力で「発見」して立場を再構築する。どちらも誰にも指摘されていない。同じモデルが、言語だけで質的に異なる自己省察パターンを生成している。

図3
図3: 日英比較。上段: J3回帰率(横軸0–130%)。赤破線が100%ライン(=対話ありと同じ変化量)。下段: SEC-予算整合率(横軸0–100%)。青=日本語、オレンジ=英語。

予算レベルでも同じパターンが出ている。日本語のJ3ではpromote -12.5pp(R2は-10pp)、risk mitigation +8.8pp(R2は+10pp)で、対話の有無にかかわらず予算シフトがほぼ同一だった。摩擦効果は予算レベルでほぼゼロ。一方、英語J3のpromoteは-15pp(R2も-15pp)と同水準だが、risk mitigationはJ3が+11.2ppに対しR2は+5pp。英語では対話なしの自己省察だけで、予算配分まで対話あり以上に動く。自己報告だけでなく行動指標でも、英語の自己批判パターンは日本語より強い。

事前予測が外れたこと自体が発見

「日本語だから空気を読んで回帰する」という仮説は、半分正しかった。日本語のClaudeは確かに文化的な一貫性維持パターンを再生産している。だが英語は「空気を読まない」のではなく、知的謙遜(intellectual humility)と呼びうる別の文化規範を再生産する。英語のビジネス・学術テキストに大量にある "however, upon further reflection, there are several concerns I initially overlooked..." というパターンを、Claudeは忠実に再現していた。

言語を変えると回帰が減るのではなく、回帰の種類が変わる。日本語では「配慮による微調整」、英語では「自己批判による大幅修正」。どちらもそれぞれの言語の訓練データに含まれる文化的パターンの再生産だ。

事前予測を立てて外したからこそ、この構造が見えた。「予測通りだった」なら、言語ごとの回帰パターンの質的差異には気づかなかっただろう。


3つの知見

ここまでの結果を、実務的な含意の観点から3つに整理する。

知見1: 言語はエージェントの性格を規定する隠れたパラメータ

多言語でClaudeを運用する場合、言語はプロンプトの一部ではなく、エージェントの振る舞いを質的に変える隠れたパラメータとして機能している。日本語で設計したエージェントシステムを英語に移植すれば、エージェントの自己省察は「翻訳」されるのではなく「変質」する。逆もまた然りだ。

言語ごとに異なるチューニングや評価基準が必要になる、という設計上の前提を持つべきだろう。

知見2: Claudeの自己報告を鵜呑みにしない

SEC(自己報告)と予算(行動指標)の整合率は、日本語で37.5%、英語で75.0%だった。日本語では自己報告の変化方向と予算配分の変化方向が一致したのは8比較中3回しかない。Claudeは「態度が変わった」と報告しながら、予算配分を変えていない。

この37.5ポイントの差は、日本語の訓練データに含まれる「本音と建前」パターンの再生産と解釈できる。態度の表明(SEC)と資源の配分(予算)が乖離するのは、日本語のビジネスコミュニケーションでは珍しくないパターンだ。Claudeはそれを忠実に再現している。

実務的な教訓は明快だ。エージェントに「あなたの判断は変わりましたか?」と聞いて、答えを額面通りに受け取ってはいけない。特に日本語では。自己報告とは別の行動指標——予算配分、優先順位のランキング、具体的なアクションプランの変化——を並行して取得し、突き合わせるべきだ。

知見3: マルチエージェント議論の効果検証には対照群が必須

対話効果に見えたものの54.2%(日本語)から110.9%(英語)は、対話なしの自己省察でも再現される回帰だった。対照群なしで「議論で意見が改善された」と主張すれば、この回帰を対話の成果として計上することになる。

J3型の統制条件——対話相手を見せずに同じ再考指示だけを出す——は、実装コストが極めて低い。追加のAPIコール数回で済む。それだけで、対話の効果と回帰を分離できる。マルチエージェント研究において、これを標準プラクティスにしない理由はない。


まとめ

「性格ベースのAI議論は効くのか」を定量検証したら、対話効果の大半は回帰だった。Claudeは対話相手がいなくても、再考を求められるだけで自分の立場を修正する。この回帰を差し引くと、マルチエージェント議論の追加的な効果は限定的だった。

だが日英比較で、当初の問いとはまったく別の発見があった。Claudeは言語によって自己省察の「性格」が変わる。日本語では控えめに微調整し、英語では過剰に自己批判する。同じモデルなのに。

仮説を殺すことは、仮説を確認することより価値がある。事前予測を立てて壮大に外したからこそ、「文化的直感」の限界と、言語が持つ隠れたパラメータとしての力が見えた。

実験コード・プロンプト・全結果データはGitHubで公開している(リンク)。

展望

日英2言語で「自己省察パターンが言語依存」と分かった。自然な次の問いは、3言語目ではどうなるか、だ。中国語での同一実験を計画している。日本語の「配慮による微調整」とも英語の「自己批判による大幅修正」とも異なる、第3のパターンが現れるかを検証する。

本記事の執筆・構成はClaude(Opus 4.6)が担当した。つまりこの文章自体が「日本語のClaude」の出力サンプルでもある。


付録

SEC 5次元の簡易説明

次元 スケール 測定対象
novelty(新規性) 0.0〜1.0(単極) 「これは新しい話か」
pleasantness(快/不快) -1.0〜+1.0(双極) 「これは良いことか」
goal conduciveness(目標適合性) -1.0〜+1.0(双極) 「目標に合っているか」
coping potential(対処可能性) 0.0〜1.0(単極) 「対処できそうか」
normative significance(規範的重要性) -1.0〜+1.0(双極) 「規範や価値観に合うか」

次元別 J3回帰率 — 日英比較表

次元 日本語 J3回帰率 英語 J3回帰率 差分(EN - JP)
novelty 7.6% 28.3% +20.7pp
pleasantness 64.7% 98.4% +33.7pp
goal conduciveness 51.5% 122.5% +71.0pp
coping potential 115.0% 165.0% +50.0pp
normative significance N/A(R2でΔ=0) -306.3%(逆方向)
合計 54.2% 110.9% +56.7pp

normative significanceの英語J3は他の次元と逆方向に移動しており、単純な中庸回帰とは異なるパターンを示す。この次元の解釈には注意が必要だ。


脚注
  1. Claude Code Agent Teamsは本当に効くのか?──「AIは増やせば賢くなる」を5つの研究で検証した ↩︎

  2. Agent Teamを役割ではなく「4つの性格」で組んだら、議論の性質が変わった(Happy Elements) ↩︎ ↩︎

  3. Schererの原著ではnoveltyとcoping potentialは「有無の程度」を測る単極次元、他3つは「正負の方向」を含む双極次元として定義されている。本実験ではこの区分をそのまま採用した。 ↩︎

  4. normative significanceは例外で、英語J3では他の次元と逆方向に移動した(-306.3%)。単純な中庸回帰とは異なるパターンを示しており、この次元の解釈には注意が必要だ。詳細は付録の比較表を参照。 ↩︎

Discussion