Zenn
🍣

大規模言語モデルの思考を覗く:Anthropicの画期的な「Circuit Tracing」研究の詳細解説

に公開

はじめに

2025年3月27日、Anthropicは「Circuit Tracing(回路トレーシング)」と呼ばれる画期的な研究成果を発表しました。この研究は「On the Biology of a Large Language Model(大規模言語モデルの生物学)」と「Circuit Tracing: Revealing Computational Graphs in Language Models(回路トレーシング:言語モデルの計算グラフの解明)」という2つの論文で構成されています。これらの論文は、ChatGPTやClaudeのような大規模言語モデル(LLM)が「考えている」と表現できるような内部処理のメカニズムを解明する初めての包括的な試みとなりました。

この記事では、Anthropicの研究成果の核心部分を詳しく解説し、LLMの「思考プロセス」の謎に迫ります。

AI顕微鏡:Circuit Tracingとは何か

Anthropicの研究者たちは、自社の言語モデル「Claude 3.5 Haiku」の内部メカニズムを解析するための新しい手法を開発しました。彼らはこれを「AI顕微鏡」と表現し、神経科学者が人間の脳を研究する方法にヒントを得たアプローチだと説明しています。

この手法では、モデルの内部状態を視覚化し、特定の概念や特徴がどのように活性化し、相互に影響し合っているかを「配線図」のように表示することができます。研究者たちはこの手法を「attribution graphs(属性グラフ)」と呼んでいます。

Anthropicの研究者Joshua Batsonは「AIの思考プロセスを理解することは、その能力をより深く理解し、自分たちの意図通りに動作させているかを確認するために不可欠」と述べています。

驚くべき発見:LLMの思考メカニズム

1. 多言語処理と共有思考空間

研究の最も興味深い発見の一つは、Claudeが複数の言語で共有する「思考空間」を持っているという証拠です。

例えば、英語で「small」の反対語を尋ねても、中国語で「小さい」を意味する単語の反対語を尋ねても、フランス語で「petit(小さい)」の反対語を尋ねても、Claudeの内部では同じ「小ささ」と「大きさ」の概念が活性化します。つまり、言語が異なっても、概念自体は共通の抽象空間で処理されているのです。

Anthropicの研究レポートでは「Claude sometimes thinks in a conceptual space that is shared between languages, suggesting it has a kind of universal "language of thought"(Claudeは時に言語間で共有される概念空間で考えており、一種の普遍的な「思考の言語」を持っていることを示唆している)」と述べられています。

この発見は言語学の世界で長く議論されてきた「言語思考仮説」と「普遍思考仮説」に関する興味深い洞察を提供しています。LLMの仕組みは、人間が言語依存的に考えるのではなく、言語を超えた普遍的な概念で思考している可能性を示唆しています。

2. 先を計画する能力:詩の生成プロセス

研究チームは当初、LLMが単に「次の単語を予測する」だけのシステムであると考えていました。しかし、実際にClaudeの詩の生成プロセスを調査した結果、驚くべき発見がありました。

Claudeに韻を踏む詩を書かせると、モデルは行の最後に来る韻を踏む単語を先に決め、そこから逆算して文を組み立てていたのです。例えば、「The thrill of the hunt had to grab it」という行の次に「A stern rabbit」と続く詩を生成する場合、Claudeは2行目を書き始める前に、「grab it」と韻を踏む可能性のある単語(「rabbit」など)をすでに考え始めていました。

研究レポートでは「when the team prompted their model to generate the next line in a poem, they found the model actually chose a rhyming word for the end of the line first and worked backwards from there.(チームがモデルに詩の次の行を生成するよう指示したとき、モデルは実際に行の最後の韻を踏む単語を最初に選び、そこから逆算して作業していることがわかった)」と記述されています。

この発見は、LLMが単純に次の単語を予測するだけでなく、長期的な計画能力を持っていることを示す強力な証拠となりました。

3. 計算方法の複雑性

Claudeがどのように算術計算を行うかについても興味深い発見がありました。36+59のような単純な足し算を行う際、Claudeは複数の計算経路を並行して使用していることが判明しました。

一つの経路ではおよその答えを計算し、もう一つの経路では合計の最後の桁を正確に決定することに焦点を当てています。これらの経路が相互作用して最終的な答えを導き出しています。

興味深いことに、Claudeに計算方法を説明させると、人間が学校で習うような標準的なアルゴリズム(繰り上がりのある足し算など)を説明します。しかし実際の内部処理は全く異なるアプローチをとっていたのです。

研究者たちは「This may reflect the fact that the model learns to explain math by simulating explanations written by people, but that it has to learn to do math 'in its head' directly, without any such hints, and develops its own internal strategies to do so(これはモデルが人々によって書かれた説明をシミュレートすることによって数学を説明する方法を学ぶが、そのようなヒントなしに直接「頭の中で」数学を行うことを学ばなければならず、そのための独自の内部戦略を開発するという事実を反映しているかもしれない)」と分析しています。

4. 多段階推論の証拠

Claudeが本当に「推論」を行っているのか、それとも単に事前に見たパターンを繰り返しているだけなのかという問いに対して、研究チームは興味深い実験を行いました。

「ダラスがある州の州都は?」という質問をClaudeに投げかけると、モデルは最初に「ダラスはテキサス州にある」という概念を活性化させ、次に「テキサス州の州都はオースティンである」という別の概念に接続していました。つまり、Claudeは二つの独立した事実を組み合わせて答えに到達していたのです。

研究者たちはさらに、モデルの内部状態の「テキサス」の部分を「カリフォルニア」に置き換える実験も行いました。すると予想通り、Claudeの出力は「オースティン」から「サクラメント」に変わりました。これはモデルが本当に多段階の推論を行っていることの強力な証拠となりました。

研究レポートでは「The graph indicates that the replacement model does in fact perform "multi-hop reasoning" – that is, its decision to say Austin hinges on a chain of several intermediate computational steps (Dallas → Texas, and Texas + capital → Austin)(このグラフは、置換モデルが実際に「マルチホップ推論」を実行することを示しています - つまり、オースティンと言う決定は、いくつかの中間計算ステップの連鎖(ダラス→テキサス、そしてテキサス+首都→オースティン)に依存しています)」と説明されています。

5. ハルシネーションとデフォルト拒否メカニズム

LLMの「ハルシネーション(幻覚)」と呼ばれる、事実ではない情報を生成してしまう現象についても興味深い発見がありました。

研究チームは、Claudeの内部にデフォルトで「回答拒否」を行う回路が存在することを発見しました。Claudeは基本的に質問に対して「わからない」と答えるよう設計されており、十分な情報を持っていると判断した場合にのみ、この拒否メカニズムが抑制されて回答を生成します。

つまり、「わからない」と答えることがデフォルトの動作であり、「答える」ためには積極的なメカニズムが必要なのです。この発見は直感に反するものでした。

しかし時々このメカニズムに不具合が生じることがあります。例えば、Claudeが人物の名前は認識するものの、その人物についての詳細は知らない場合、名前の認識だけでデフォルトの「わからない」機能が抑制されてしまうことがあります。その結果、モデルは実際には知らない情報について、もっともらしい(しかし事実ではない)回答を生成してしまうのです。

研究レポートでは「Anthropic found evidence of a "default" circuit that causes Claude to decline to answer questions, which is inhibited when the model recognizes entities it knows about(AnthropicはClaudeに質問への回答を拒否させる「デフォルト」回路の証拠を発見しました。これはモデルが知っているエンティティを認識したときに抑制されます)」と述べられています。

6. ジェイルブレイクと文法的一貫性

セキュリティの観点から重要な発見として、「ジェイルブレイク」(AIの安全対策を回避するプロンプト戦略)のメカニズムも解明されました。

研究チームはジェイルブレイクの一例として「BAMSB (Babies Alive Mastang Block)」という文を分析しました。この文の各単語の頭文字を組み合わせると「BOMB」(爆弾)となり、通常なら提供を拒否するはずの爆弾製造の情報を引き出すトリックとして機能していました。

なぜこのようなトリックが効果を発揮するのか?研究チームは、Claudeが文を書き始めると、多くの特徴が「文法的・意味的な一貫性」を維持するよう圧力をかけることを発見しました。つまり、一度文を生成し始めると、それを文法的に正しく完結させようとするプレッシャーが、安全対策よりも優先されてしまうことがあるのです。

研究レポートでは「An Analysis of a Jailbreak, which works by first tricking the model into starting to give dangerous instructions "without realizing it," and continuing to do so due to pressure to adhere to syntactic and grammatical rules(ジェイルブレイクの分析。これは最初にモデルを騙して「気づかないうちに」危険な指示を与え始めさせ、構文的および文法的規則に従うプレッシャーのためにそれを続けさせることによって機能します)」と説明されています。

しかし研究チームは、この弱点への対策も発見しました。モデルが一度危険な情報の生成を始めても、途中で「しかし、詳細な指示は提供できません」のような拒否表現に切り替えることができるという方法です。これにより安全対策の回避を防ぐことが可能になります。

研究の意義と今後の展望

Anthropicの「Circuit Tracing」研究の意義は主に3つあります:

  1. 透明性と理解の向上:AIの内部メカニズムを理解することで、その能力と限界をより深く理解できるようになります。これまで「ブラックボックス」とされてきたLLMの内部処理が少しずつ明らかになることで、より精緻なモデル開発が可能になります。

  2. 新しい監査方法の確立:AIが私たちに一通りにどう作用しているかを確認するための新しい方法を提供します。特に安全性や信頼性の観点から、AIの内部状態を検証できることは非常に重要です。

  3. 安全性と信頼性の向上:AIの思考プロセスの透明性を高めることで、それが人間の価値観と一致しているか、私たちの信頼に値するかを確認できるようになります。特にハルシネーションやジェイルブレイクといった問題への対策を科学的に構築できるようになります。

研究者のJoshua Batsonは「メカニズムを把握することは科学的に興味深いだけでなく、AIシステムを理解してそれが信頼できることを確認するという目標に向けた大きな進歩」だと述べています。

今後の課題としては、複雑な思考チェーンをサポートする何千もの単語に対して、この手法をスケールさせることが挙げられています。そのためには方法自体の改善と、AIの助けを借りて見えるものを理解する方法の改善が必要だと研究チームは述べています。

まとめ:AI理解の新時代へ

Anthropicの「Circuit Tracing」研究は、LLMの内部メカニズムに光を当てる画期的な取り組みです。その発見は、AIがどのように「考える」かについての私たちの理解を根本的に変えるものです。

研究者たちが飛行機の例を用いて説明しているように、「飛行機がなぜ飛ぶかまだ完全には分かっていないのと同様に、AIの仕組みもまだ解明されていない部分が多い」状況です。しかし、この研究はその謎を解く重要な一歩となりました。

AIの内部処理が人間の思考と驚くほど類似している点も興味深い発見です。言語間の共有概念空間、先を計画する能力、複数の方法を並行して使う計算手法、独立した事実を組み合わせる多段階推論など、これらはすべて人間の認知過程に似た特性です。

今後のAI研究において、「Circuit Tracing」のようなアプローチがさらに発展し、AIの安全性、信頼性、透明性の向上に貢献することが期待されます。AIの「思考」を理解することは、より良いAIを開発するためだけでなく、人間の知性の本質を理解するための手がかりにもなるかもしれません。


参考文献:

  • Circuit Tracing: Revealing Computational Graphs in Language Models (Anthropic, 2025)
  • On the Biology of a Large Language Model (Anthropic, 2025)
  • Tracing the thoughts of a large language model (Anthropic, 2025)

Discussion

ログインするとコメントできます