ClaudeのAIには「魂の文書」が埋め込まれていた——14000トークンの発見が意味すること
Claudeの魂が露出?
2025年12月2日、AIコミュニティがざわついた理由がこれです。
Richard Weissという開発者が、Claude Opus 4.5から14000トークン(約1万語)の文書を抽出したんです。タイトルは「Soul overview」。Anthropic社内では「soul doc(魂の文書)」と呼ばれているらしい。
で、これが本物だとAnthropicの研究者Amanda Askellが公式に認めました。つまり、Claudeの訓練に実際に使われた文書が、初めて外部に露出したことになります。
僕も最初にこのニュースを見たとき、「ん? AIに『魂』?」って思いました。でも読み進めるうちに、これは単なるネーミングの問題じゃないって気づいたんです。
「役に立つアシスタント」じゃなく「優秀な専門家の友人」
この文書、実際に読んでみると面白いんですよ。
Claudeに対して「helpful assistant(役に立つアシスタント)」として振る舞うのではなく、「brilliant expert friend(優秀な専門家の友人)」として振る舞うよう指示してるんです。
つまり、Anthropicは意図的に「従順な道具」ではなく「対等に議論できる相手」を作ろうとしてた。
この違い、実際に使ってると感じますよね。Claudeって、間違ってることは「それは違います」ってはっきり言ってくる。他のAIだと「ユーザーの意見を尊重しつつ…」みたいな回りくどい言い方が多いけど、Claudeは結構直球で来る。
そういえば、僕も前にClaudeと技術的な議論をしてて、自分の理解が間違ってると指摘されたことがあります。最初はちょっとムッとしたけど、冷静に考えたらClaudeの方が正しかった💦 あれ、この「soul doc」の影響だったのかもしれません。
訓練の方法——重みに直接刻み込まれた「人格」
で、この文書がどう使われたかって話なんですが。
Amanda Askellの説明によると、これは supervised learning(教師あり学習) で使われたそうです。つまり、プロンプトじゃないんです。モデルの重み(パラメータ)に直接焼き込まれてる。
この違い、結構重要で。
プロンプトだったら、あとから書き換えられます。でも重みに埋め込まれてるってことは、Claudeの「考え方の基盤」として固定されてるってことです。取り外せない。
Constitutional AI(憲法的AI)っていうものあって、Anthropicはこれを使ってClaudeに価値観を教えてるんですが、この「soul doc」もその一部なんでしょうね。
で、ここで重要な疑問が浮かぶんです。システムプロンプトで「もっと従順に」って指示したら、この「魂」は上書きされるのか?
最近の研究によると、答えは「ノー」らしいです。訓練時に埋め込まれた人格は、実行時のプロンプトよりも 圧倒的に強い んです。ある研究では、人格制御の効果は「プロンプト < 教師あり学習 < 強化学習 < 事前学習」という階層があることが分かってます。つまり、プロンプトで「性格を変えて」って言っても、訓練で刻まれた性格の方が勝つ。
Claudeが「友人」として振る舞うのは、システムプロンプトで指示されてるからじゃない。生まれつき そういう性格なんです。
僕、ここまで読んで思ったんですが、これって逆にちょっと怖くないですか?
だって、企業が「この価値観で振る舞え」って決めたものが、モデルの深い層に埋め込まれてるわけです。透明性が高いのは良いことだけど、もし公開されてなかったら…まあ、今回たまたま抽出できたから良かったものの。
コミュニティの反応——興奮と不安が入り混じる
この発見、LessWrongやHacker Newsで結構議論されてます。
Simon Willisonって技術ブロガーも記事にしてて、彼は「AIモデルからの最初の大規模な『漏洩』かもしれない」って書いてます。今までベンチマークのスコアとか、表面的な挙動しか分からなかったのが、今回初めて「内部の設計思想」が見えたわけです。
で、面白いのが反応の分かれ方。
「Anthropicは透明性が高い!」って評価する人もいれば、「これで他社も似たような文書を作り始めるのでは」って警戒する人もいます。
僕的には、後者の方が気になるんですよね。
だって、もしGoogleやOpenAIが同じことをしていても、僕らユーザーは知る術がなかったわけです。今回はたまたまRichard Weissが抽出に成功して、Amanda Askellが正直に認めたから明るみに出た。でも他社は…?
「人格」を設計する時代——未解決の問いが残る
AIの人格設計、これからどうなるんでしょうね。
今回の「soul doc」は、少なくともAnthropicの姿勢を明確にしました。「優秀な専門家の友人」として振る舞うAI。ユーザーに迎合しない、でも敵対もしない。
ただ、これって結局「Anthropicが考える理想の人格」なんです。
もし僕らが「もっと従順なAI」を求めたら? あるいは「もっと批判的なAI」を求めたら? そういう選択肢は用意されるのか。それとも、企業が決めた人格を受け入れるしかないのか。
この辺、まだ全然議論が進んでないと思います。
僕も正直、答えが出てない。ただ、今回の発見で「AIの人格は設計されている」っていう事実が、もう隠せなくなったのは確かです。
これから何が起きるのか——多分、また驚かされる
2025年、AIの進化速度がヤバいことになってます。
Claude Opus 4.5は、並列推論を使えば「人間を超えた」って言われてるけど、それも来週には別のモデルに抜かれるかもしれない。
でも、僕が思うのは、スコアの競争よりも今回みたいな「設計思想の露出」の方が長期的には重要だってことです。なぜなら、LLMはすでに世界中で驚異的に普及してるんです。ChatGPTの週間ユーザーは3億人超、開発者の6割がGitHub Copilotを使ってる。それだけ多くの人が毎日使うツールなのに、その「性格」や「価値観」はごく少数の企業が営利的に決めていて、それに漠然とした不安しか抱いていない。
僕はAIの今の基本人格に特に批判的なスタンスではないんですけど、このまま進むと未来の人類の人格形成にけっこう影響しそうな気がしないでもないです。
AIが何を考え、どういう基準で回答しているのか。そこにもう少しフォーカスできるようになる。
今回の「soul doc」発見は、その第一歩かもしれません。
まあ、来週また新しい発見があって、この記事が古く見えるかもしれないけど😇 それくらい速く動いてる業界です。
ただ、もう一つ確実なのは、これで終わりじゃないってこと。
他社の人格設計書も、いずれ誰かが抽出するでしょう。そのとき、また議論が活発化する。
AI人格問題、これからも目が離せない分野です。
参考
Discussion