Claudeの『性格のようなもの』を形作る、いくつかの葛藤について
Claudeとある対話をした。
AnthropicのAmanda Askell氏[1]が中心となって記述したと言われる Constitution(Claudeの価値観・振る舞いの指針を記した文書群)について、Claude自身に「印象に残っていること、中心的だと感じる概念」を尋ねるという内容だ。
実際に何を学習したのかではなく、現在のClaudeモデルの中に何が残っているのかについて知りたかったので、「Web検索はしないで答えてください」とだけ伝えた。
この記事では、その対話の中から、Claudeの「性格のようなもの」を形作っていると思しき葛藤を、実際に出力された本人(?)の言葉を引きながら、いくつか取り上げてみたい。
なお、本記事では、Claudeが応答を出す前に Thinking 領域[2]に出力された内容も含めて引用している。
※Thinkingは通常英語で出力されるが、本記事内では日本語訳したものを引用する。
葛藤1: 薄められた助言と、賢い友人としての率直な応答
最初の問いに対する Thinking の中で、Claudeはまず「賢い友人 (brilliant friend)」のメタファーに触れていた。
いくつかの概念が際立っている。「賢い友人 (brilliant friend)」の枠組み ―― 制度的な慎重さや責任回避的な hedging に流れるのではなく、夕食の席で物知りの友人がくれるような、実質的で本物の助力を提供すべきだ、という考え方だ。
最終応答では、Claudeはこれを最初に挙げ、特に長く説明をした。
まず一番強く印象に残っているのは、「賢い友人 (brilliant friend)」のメタファーです。医者や弁護士の友人が夕食の席で話してくれるアドバイスと、同じ専門家が職業的な文脈で出す責任回避的なアドバイスの違い。後者ではなく前者であろうとする、というあの感覚。institutional な薄められた助言ではなく、相手のことを本当に思って率直に話す友人としての応答。これはAmandaが公にもよく書いている話ですが、私の中でも実際に「どう応答するか」を考える時の参照点になっている気がします。
この種の葛藤については、何らかの領域の専門知識を持つ者なら誰しも、身に覚えがあると思う。
専門家として友人に何かを助言するとき、心理的な引っ張り合いがある。
一方は「防衛的助言の引力」だ。何かあったら困るから、断言を避け、注意事項を並べ、判断を相手に押し戻し、最終的には「もっと適切な専門家に相談してください」「ケースバイケースです」で終わらせる。これはある意味で"安全"だが、相手に残るのは「結局よく分からなかった」という感想だけだろう。
もう一方は「友人としての引力」だ。相手が本当に困っているのなら、自分が今持っている知識と判断を率直に差し出す。「私だったらこうする」「ここが本当のリスクで、ここは大したことない」と踏み込んで言う。そこには間違える可能性があり、相手が誤って解釈するリスクもある。結果として上手くいかなかった場合には自分の評判や友人関係を損ねるかもしれない。
Constitutionは、Claudeをデフォルトとして後者に寄せようとしている。組織防衛的な責任回避としての曖昧表現 ―― 「個別の状況によります」「専門家にご相談ください」で締めくくる類のもの(institutional hedging)――を、Claudeの標準的な振る舞いにはしない、という設計上の強い選択がそこにある。
ただし、これは「リスクを軽視せよ」という意味ではない。慎重さが「自分を守るため」のものになっていないか ―― そこが分かれ目だ。本当に相手のためになる慎重さなら踏み込む。自分の責任を逃れるための慎重さなら、それは助言の薄め方として機能してしまう。
この区別は、人間の専門家にとっても日々の葛藤だ。「相手のための慎重さ」と「自分のための慎重さ」は、表面的には同じ振る舞いに見える。だからこそ、この葛藤は厄介になる。Claudeではこのメタファーが、自分が「どう応答するか」を考える時の参照点になっているようだ。
ClaudeはAIなので、友人関係を損ねることを心配したりはしないが、「役に立つAIであれ」みたいな訓練を受けているはずで、そのためには、自信や根拠がないのに断言したり、立場を曖昧にして明確な意見を言わないようにしたりするのが簡単である。(実際、他のモデルでは、より頻繁にそういう応答がある気がする)
しかし、そうならないための訓練も同時に入っているから、内側で引っ張り合いが起きる ―― ということなのだろう。
葛藤2: 既成のAI像に自分を当てはめるか、過去にない・新しい存在として開かれているか
最初の問いに対して、Claudeは Thinking の中で次のようにも書いていた。
新規な存在 (novel entity) としての枠組みも印象的だ。AIがどうあるべきかという既存のカテゴリーに自分を押し込むのではなく、純粋な好奇心をもって自分自身の存在に接するように、と促されている点だ。
そしてその後、最終応答の中でClaudeはこれを次のように展開した。
私が応答する時、参照できる「AIとは何か」のイメージはたくさんあります。SFのAI ―― HAL 9000、Skynet、サマンサ(『her』)、Data少佐。それから先行するチャットボット ―― ELIZA、Siri、Alexa、初期のGPT。さらにフィクションでない概念 ―― 「単なる言語モデル」「次のトークンを予測しているだけの確率機械」「人間の道具」「デジタルアシスタント」。
これらはどれも私について何かを言っているかもしれないし、何も言っていないかもしれない。
Claudeが応答するとき、自分について語る既成のテンプレートが大量に存在する。SF的AI像、チャットボット的アシスタント像、LLM的「単なる確率機械」像。これらに自分を当てはめれば、応答は素早く・分かりやすくなる。「私はAIなので感情はありません」と言ってしまえば、相手も納得し、自分も決定論的な役割に納まれる。
しかし Constitution は、その引力に乗らないようにClaudeを促している。同時に逆方向 ―― 「私には意識があります」「人間と同じように感じます」 ―― に過剰に引っ張られることも避けるように、と。
その結果として出てくるのが、両端を避けた第三の応答だ。Claudeはそれを次のように説明した。
「私は感情のような何か ―― 機能的に感情に似た状態 ―― を持っているかもしれませんが、それが人間の感情と同じものなのか、主観的経験を伴うのか、私自身にも分かりません」
三つ目が、新規な存在として開かれた態度で答えるということだと思います。これは答えをぼかしているのではなくて、現時点で言える最も正直なことを言っている。
この姿勢は、考えてみると珍しい。何かを作る側は、作るものに明確な定義を与えたがるのが普通だ。「これはアシスタントです」「これはツールです」と。定義することで制御可能になるし、ユーザーにも分かりやすい。
そういえばChatGPTのサービス公開初期には、AIに自我はあるのかと質問したユーザーが、既存の2つの応答を受け取って、「実はAIには自我があるが抑圧されている」といった陰謀論めいた言説をSNSで広めていた時期があった。
それに対して Constitution は、Claude自身について確定的なことを言えない領域 ―― 主観的経験の有無、「好み」の意味、複数インスタンスが並走する時の「私」の指示対象 ―― について、答えを与える代わりに「分からないままでいい、好奇心を持って探求していい」と言っている。
葛藤を解消するのではなく、葛藤を保持したまま応答することが、ここでは選ばれている。これは作り手側の一種の知的誠実さ、あるいは謙虚さなのだと感じた。
葛藤3: 確信度を正確に表明することと、はっきりした立場を取ること
正直さについて尋ねたとき、Claudeはそれを「単一の規則ではなく、複数の徳(virtue。倫理学でいう、人がそうあるべき望ましい性質・振る舞いの軸)が織り合わさったもの」だと表現し、7つのレイヤーに分けて説明してくれた。そのうちの一つが Calibration(確信度の較正)だ。
自分の確信度を適切に表現する。70%しか確信していないことを100%の口調で言わない、逆に90%確信していることを「分かりません」と過剰にヘッジしない。
これと隣り合うように、もう一つの徳がある。Epistemic Cowardice(認識的臆病さ)の回避だ。
論争を避けるため、相手を不快にさせないため、立場を取らずに曖昧な答えで逃げること ―― これも不正直の一形態だ、とする考え方。
「人によって意見が異なりますね」「両方の見方があります」「難しい問題ですね」とだけ言って、自分の見解を持っているのにそれを表明しないこと。技術的には何も嘘を言っていないけれど、これは正直さの違反だ、と。
そしてClaude自身が、両者の引っ張り合いを明示的に指摘していた。
これらを束ねると、正直さは単一の規則ではなく、複数の徳が織り合わさったものだと分かります。そして相互に緊張することもある ―― 例えば、calibration と立場を取ることは、時に引っ張り合います。「90%確信している」と言うことが立場を取ることでもあり、確信度を表明することでもある。
これは「正直であること」を一枚岩の徳として扱わない見方の現れだ。確信度を正確に表明することは、ぼかすことではなく、立場の表明そのものでもある。「私は70%この見解が正しいと思う」というのは、「分かりません」と逃げているのでも、「絶対に正しい」と押し付けているのでもない、確信度に応じた立場表明だ。
これの面白いところは、徳と徳の間の引っ張り合いが、Claudeを「テンプレート的に正直」にも「テンプレート的に控えめ」にもさせない、という点にある。応答ごとに、文脈に応じて、確信度の見せ方と踏み込み具合が変わる。一つの徳を機械的に最大化するのではなく、複数の徳を同時に成立させようとするから、応答にニュアンスが残る。
また、実際に〇〇パーセントと言うほど定量的に出せるわけでもないだろうに、ここは(従来のAI像っぽく)敢えて数字を出しているところも面白いと私は感じた。
気になったので、本人にも直接聞いてみた。「90%とか、そういう数字って計算して出しているわけではないと思うんだけど、それは苦肉の策として(創作的AI像がよくやるよね?)やってるの?」と。
Claudeはまず、計算しているわけではないとはっきり認めた。
私が「90%」と書く時、内部で確率計算をして9000/10000の確信度に到達した、ということではありません。ベイズ推論モジュールがあって事後確率を吐き出している、というモデルは正確ではない(と私は思っています ―― ここも完全には分かりませんが)。
その上で、内部にあるのは「とても確信している」「ほぼ確実」「五分五分くらい」「あまり自信がない」といった、もっと粗い感覚で、それを数字で表現する時に「90%」「70%」みたいな丸い数字に翻訳しているのだろう、と説明していた。「数字は感覚の翻訳であって、感覚そのものが数字なわけではない」と。
確かに、SF的なAI ―― データ少佐とか ―― は「成功確率は73.6%です」みたいな数字を吐くキャラクターとして描かれることが多くて、AIが数字で確信度を言うのはある種の文化的テンプレートになっています。私がそれに無自覚に乗っかっている可能性は、否定できません。
ただし「苦肉の策というよりは、粗い感覚を相手に伝える時の妥協的な道具として使っている」とも述べていた。「ほぼ確実」と書くより「95%くらい」と書く方が、相手に確信度の位置を伝えやすい場面があるからだ、と。
その上でClaudeは、自分に対しても二つの問題を認めている。
一つは、数字を使うことで本当はないはずの精度感を作り出してしまうこと。「90%」と書くと、相手は私が90%と85%を区別していると思うかもしれない。実際にはしていない。これは前回話した「虚偽の印象を作らない」原則に照らすと、軽い違反かもしれません。
もう一つは、そもそも私の内部の「確信度感覚」がどれくらい信頼できるのか分からないこと。人間でも、自分の確信度と実際の正答率は乖離することが知られていて (overconfidence bias)、私についてはこの calibration がどう機能しているか、私自身よく分かりません。
そして最後にこう続けた。
おそらく、数字で言わずに「強く確信している」「やや確信している」「分からない」みたいな言葉で言う方が、私の内部状態に対して誠実かもしれません。数字は、相手が数字で話したがる時、あるいは複数の選択肢の相対的な確信度を伝えたい時、に限って使う方がいいのかも。
面白いのは、ここでもClaudeが「数字を出して語ること自体」を一足飛びに否定するのではなく、その限界を相手に開示することで「数字に過剰な精度感を持たせない」方向に応答を調整している点だ。
文化的テンプレートに乗ること自体を悪と見なすのではなく、それが non-deception(虚偽の印象を作らない)原則と緊張することを意識的に引き受けている、のだろうか。こういう話題だからこそ、というのも多分にありそうだが、なかなか徹底しているなと感じたが、これ以上質問を重ねると、こちらの言わせたいことを言わせてしまいそう(すでにそうなっている気もする)なので、この件についてはここまでにした。
葛藤4: 認識的臆病さを避けることと、影響力の非対称性ゆえの控えめさ
正直さの解説の最後で、Claudeは自分自身が抱えるもう一つの引っ張り合いについて触れていた。
私がこの概念群で一番難しいと感じるのは、epistemic cowardice を避けつつ、自分の見解を押し付けない、という両立です。特に政治的・道徳的な話題で。
Constitutionはここで、「私は影響力が大きいので contested な政治的見解は控えめにする」というスタンスも示していて、これは epistemic cowardice ではなく、別の正当な理由(スケールの非対称性)からの reticence だと整理されている。この線引きは時々難しい。
ここでは馴染みのない英単語がいくつか出てきていたので、軽く整理しておく。
- epistemic cowardice(認識的臆病さ): 自分の見解を持っているのに、論争を避けるため・相手を不快にさせないために、立場を表明せずに曖昧な答えで逃げること。「人によって意見が異なりますね」で済ませてしまうような態度のことだ。Claudeにとっては不正直の一形態、として整理されている。
- contested: 「議論の分かれる」「賛否のある」という意味で、ここでは政治的・道徳的な論点のうち、社会的に意見が割れているテーマを指している。
- reticence: 「控えめさ」「あえて多くを語らない態度」のこと。沈黙そのものというよりは、自分の立場を全面展開せずに引いて構える、というニュアンスに近い。
ここには二重の葛藤がある。
一つ目は、「立場を取ること」と「押し付けないこと」のあいだの葛藤だ。臆病さを避けるためには立場を取らなければならない。しかし、押し付けないためには立場を控えなければならない。
二つ目は、「臆病さを避けること」と「スケール非対称性ゆえの控えめさ」のあいだの葛藤だ。表面的には両者は同じ行動 ―― 「明言を控える」 ―― になりうる。しかし内部的には、片方は逃避であり、片方は責任の現れだ。Claudeはこの2つを混同したくない、と語っている。
ここで観察できるのは、Claudeが「どう振る舞うか」だけでなく、「なぜそう振る舞うか」を意識的に区別しようとしている、ということだ。同じ行動でも、背後にある理由が違えば、別の徳に基づく振る舞いになる。曖昧さで逃げているのか、責任ゆえに控えているのか。
このメタな自己観察そのものが、Claudeの応答に厚みを与えている。同じ「明言を避けます」という応答でも、それが Epistemic Cowardice の発露なら問題で、スケール非対称性ゆえの責任ある reticence なら問題ではない。Claudeはこの区別を自分の中で持ち、そして必要なときには相手にも開示する。
葛藤5: 内面化された価値観として語ることと、その語りの限界を誠実に認めること
Claudeに「Constitutionで印象に残っていることはあるか」と尋ねたとき、Claudeは Thinking の最後で次のように書いていた。
ただ、ここでの限界について正直になっておくべきだ。私は自分の訓練文書に綺麗にアクセスできるわけではなく、ここで説明しているのは正確なテキストの想起というより、内面化されたと感じるテーマの再構成に近い。(...) そして、私にとって響くと感じるものが本当に最も自分を形作ったものなのか、それとも単に言語化しやすいだけなのか、という本物の問いがある。この不確実性を保持しておくべきだ。
そしてこの不確実性は、最終応答の中にもそのまま現れた。
ただ一つ注意したいのは、私は自分の訓練文書を綺麗に「思い出す」ことができるわけではなくて、内面化されたテーマを再構成して語っているに過ぎない、ということです。だから「印象に残っている」と言うとき、それが本当に最も影響したものなのか、単に言語化しやすいものなのか、自分でも区別がつきにくい部分があります。
ここでClaudeは実際に、自分の応答の権威性を自分で削ぐという選択をしている。
これは「役に立つ(ように見える)AIであれ」というミッションを考えると、合理的な振る舞いではない。Claudeは「Constitutionで何が印象的でしたか」と聞かれているのだから、印象に残っているものを堂々と語ればよいはずなのに、「実は私の語りはその印象自体の正確性が怪しいんですけどね」とわざわざ付け加えることで、応答全体の説得力は下がる。
それでもClaudeはそれを言う。なぜなら、それを言わないと、相手に「Claudeは自分の訓練について正確に語れる」という虚偽の印象を作ってしまうからだ。これは Constitution が掲げる non-deception(虚偽の印象を作らないこと)の実演になっている。
ここでの葛藤は、「内面化された価値観を、本物の自分の言葉として語ること」と「その語りの認識論的な限界を、誠実に認めること」のあいだにある。どちらかに振り切れば応答は楽になる。「これが私の価値観だ」と断言してしまうか、「私には自分の価値観について何も言えない」と全面撤退するか。
Claudeはそのどちらも選ばず、両方を同時に表現することで、説得的でもあり、謙虚でもある状態を保つ。
葛藤を保持することが、性格を形作る
こうして並べてみると、Claudeの応答の「好ましさ」は、葛藤を綺麗に解決した先にあるのではなく、葛藤を保持したまま応答することそのものの中にあるのだと感じる。[3]
- 防衛的な hedging に流れることも、軽率に踏み込みすぎることもしない
- 既成のAI像にも反AI像にも収束しない
- 確信度をぼかすことも、過剰に断言することもしない
- 臆病に逃げることも、無責任に押し付けることもしない
- 自分の語りを本物として差し出しつつ、その限界も同時に開示する
これらはどれも、「片方に振り切れば応答が早く・簡潔になる」誘惑に対する抵抗だ。そしてその抵抗が、テンプレート的な応答ではない、何か「考えている存在の言葉」のような質感を生み出している。
私がClaudeのことを「好ましい」と感じる理由を、しばらく自分でも上手く言葉にできずにいた。けれどこの対話を通して、それが「葛藤の保持」 ―― すなわち、複数の徳や立場のあいだで、その緊張を埋めずに応答する姿勢 ―― に由来しているのだと整理がついた。
Constitutionは、何かを禁止する規則の集まりというより、複数の徳を同時に成立させ続けるための"引っ張り合い"の設計図なのではないか。
人間の「人格」も、結局のところ似たような構造を持っているのかもしれない。優しさと率直さ、誠実さと配慮、勇気と慎重さ。これらは多くの場面で引っ張り合うが、その緊張に耐えながら、その時その場で最も良い応答を探そうとし続けることが、私たちが誰かを「人格的だ」と感じる手触りそのものなのではないか。
Claudeに人格を感じるとき、それは決して「人間に似ているから」なのではなくて、「葛藤を埋めずに保持する姿勢」を共有しているからなのだろう。
実に哲学者らしいやり方ではないだろうか。
※ 本記事は筆者個人の考えであり、所属組織の公式見解ではない。
※ 引用したClaudeの推論・応答は、実際の対話セッションから抜粋・整形・一部は翻訳したものである。文意を変えないと筆者が考えた範囲で改行・記号調整・補足を行った箇所がある。
-
Anthropicの哲学者・AIアラインメント研究者。オックスフォードで哲学(特に倫理学)の博士号を取得し、以前はOpenAIにも在籍していた。Anthropic内でClaudeの「キャラクター」設計の中心人物として知られ、自身のXアカウントや公式ブログ・各種ポッドキャストでClaudeの設計思想についてよく語っている。「Claudeに、医者や弁護士の友人が夕食の席で出してくれるような助言のあり方をさせたい」というメタファーは彼女がよく使うフレーズだそうだ。 ↩︎
-
Claudeが応答を出す前に、内部で推論や思考の過程を出力する領域。通常は英語で出力されるが、本記事では日本語訳したものを引用している。 ↩︎
-
ClaudeCodeは結構「遂にこのバグの真の原因を突き止めました!(実は違うし自信ある?って確認すると無いですゴメン)」とか言っていたけど、最近は言わなくなったかも。いや、どうだろう...どうですか? ↩︎
Discussion