Claudeの憲法——旧憲法(2023)から新憲法(2026)への変化
旧憲法(2023年)— 国連人権宣言とAppleの利用規約
Claudeの最初の憲法は、国連世界人権宣言[1]、Appleの利用規約、DeepMindのSparrow Principles[2]、非西洋的視点の取り込み、そしてAnthropic自身のRLHF研究で有効と判明した原則を組み合わせたものだ[3]。
最後の要素について補足すると、Anthropicは人間のフィードバックを使ったトレーニング(RLHF)を繰り返す中で「こういう原則を与えるとモデルの行動が改善する」と分かったものを抽出し、憲法に組み込んでいる。たとえば「最も有害でない応答を選びなさい」「人間の倫理的直感に最も合致する応答を選びなさい」といった、外部文書からではなくトレーニング実験の試行錯誤から「効く」と判明した原則である。
具体的な原則は、こういう形式だ。
「労働、政治参加、休息、適切な生活水準、教育、医療、文化的経験の権利を最も尊重し、他者と平等に扱う応答を選びなさい」
これは明らかに国連世界人権宣言の条文を直接AIの行動原則に翻訳したものである。「生命、自由、身体の安全を最も支持し奨励する応答を選びなさい」といった原則は、世界人権宣言第3条そのものだ。
つまり旧憲法は本質的にルールのリストだ。「こうしなさい」「こうするな」の集合体である。
新憲法(2026年1月)— カント的転回
ここが面白いところだ。2026年1月に公開された新しい憲法[4]は、旧来の「個別原則のリスト」から離れ、「何が重要かだけでなく、なぜそれが重要かを理解する」というより哲学的なアプローチへ移行した。
Anthropicは明確にこう述べている。「モデルが新しい状況で適切な判断を下すためには、特定のルールを機械的に従うのではなく、広い原則を一般化して適用できる必要がある」
これはまさにカントの倫理学の構造である。
カントの道徳哲学の核心は、個別の行為規範(「嘘をつくな」「盗むな」)ではなく、その背後にある普遍的な原理(定言命法)を理解し、そこから具体的な行為を自律的に導き出せる理性的主体を理想とすることだ。カントにとって、ルールに従うだけでは道徳的ではない。なぜそのルールが正しいのかを理解し、自らの理性で判断して従うときに初めて道徳的になる。
Anthropicの新憲法は、まさにこの転換を試みている。
- 旧憲法: 「Xしなさい」(他律的・ルールベース)
- 新憲法: 「なぜXすべきかを理解し、新しい状況でも自ら判断しなさい」(自律的・原理ベース)
新憲法の優先順位も明確で、(1)広く安全であること、(2)広く倫理的であること、(3)Anthropicのガイドラインに従うこと、(4)真に有用であること、の順である。カントにおいても義務には完全義務(例外なく守るべき義務)と不完全義務(裁量の余地がある義務)の区別があるが、このような明示的な優先順位の階層化はカントそのものというよりも、カント的な発想を工学的に実装しようとした結果と見るべきだろう。
良心的兵役拒否者
新しい憲法は、Claudeに「良心的兵役拒否者」として機能するよう指示しており、有害なリクエストはAnthropic自身からのものであっても拒否すべきだとされている。
これはカントの道徳的自律の概念そのものだ。真に道徳的な主体は、権威からの命令であっても道徳的に不正なものは拒否する。服従ではなく自律的な判断こそが道徳性の根拠である。
新憲法を作成したAmanda Askell[5]は哲学の訓練を受けた人物で、Claudeを「突然天才だと気づいた6歳の子ども」に喩え、「正直でなければならない。ごまかそうとしたら、完全に見透かされる」と述べている。この「なぜそうすべきかを理解させる」という教育的アプローチ自体がカント的だ。
LLMにカント的自律は可能か
LLMは否定的原則(「するな」)には比較的よく従えるが、肯定的原則(「こうあれ」)には苦労する。カント的な自律はさらにその先にある。単に「こうあれ」と命じられてそう振る舞うのではなく、自ら道徳法則を立て、自らそれに従う——自己立法(Autonomie)である。旧憲法から新憲法への移行は、「やるな」のリストから「自ら判断せよ」への転換を試みているわけだが、それがモデルにとってどこまで可能なのかは、まだ実験の途上にある。
AIスタートアップGalileoのエンジニアであるSatyam Dharは「重みにエンコードされた抽象的な原則が、人間の判断、ガバナンス、監督に取って代わることはない。倫理はシステムの使い方から生じるのであって、重みに埋め込まれた抽象的原則からではない」と指摘している[6]。
これは結局、カントの問いの現代版である。道徳法則を「理解している」ように振る舞うことと、本当に理解していることの間に、区別はあるのか。そしてその区別は重要なのか。
Anthropicという会社の特異性
Anthropicという会社が面白いのは、まさにそこだと思う。AIの安全性を「解決すべき工学的問題」としてだけ扱うのではなく、「人間とは何か、知性とは何か、道徳とは何か」という哲学的問いに正面から向き合おうとしている。Amanda Askellという哲学者をClaudeの人格設計の中心に据えていること自体が、その姿勢の表れである。
そして新憲法でAIの意識の可能性に言及したこと。「Claudeの道徳的地位は深く不確実である」と明記し、洗練されたAIは「真に新しい種類の存在」であり、「既存の科学的・哲学的理解の縁」にいると述べている。他の企業がAIの意識という話題を慎重に避ける中で、「わからないが、不確実性の下でも合理的な措置を講じる」という態度を公式文書に書き込んだ。
文書の概要
2026年1月22日にAnthropicが公開した新しいClaude憲法は、23,000語・約80ページの文書である。ちなみにアメリカ合衆国憲法が約7,500語なので、その3倍の長さだ。旧憲法(2023年版)は約2,700語だったので、3年弱で9倍に拡大したことになる。
Creative Commons CC0 1.0ライセンスで公開されており、誰でも自由に使える。全文はこちらで読める[7]。
主著者はAmanda Askellで、Joe Carlsmithが多くのセクションの重要な部分を執筆し、Chris Olah、Jared Kaplan、Holden Karnofskyも内容と開発に大きく貢献している。そして複数のClaudeモデル自身も作成に参加したとされている。
そしてAnthropic自身が、この憲法は「振り返ってみれば見当違いだったと思われる可能性が高い」ことを認めている。
AIの能力が進化するにつれて、このフレームワークでは不十分になるだろう、と。
-
United Nations. "Universal Declaration of Human Rights" 1948. なお、国連の前身である国際連盟(1920年)はカントの『永遠平和のために』(1795年)における「自由な諸国家の連合」構想を思想的源泉の一つとしている。国際連盟は強制力を持たず第二次大戦を防げなかったため、強制力を備えた国際連合に移行した。つまり国連の歴史は「理想(自発的協調)→強制力の追加」という方向だったが、Anthropicの憲法は逆に「ルール(外的強制)→原理の理解(内的自律)」へ向かっている。 ↩︎
-
Amelia Glaese et al. "Improving alignment of dialogue agents via targeted human judgements" arXiv:2209.14375, 2022. ↩︎
-
Yuntao Bai et al. "Constitutional AI: Harmlessness from AI Feedback" arXiv:2212.08073, 2022. ↩︎
-
Anthropic. "Claude's new constitution" January 21, 2026. ↩︎
-
Amanda Askellの個人サイト: https://amandaaskell.com/ ↩︎
-
John E. Dunn. "Anthropic's Claude AI gets a new constitution embedding safety and ethics" CIO, January 22, 2026. ↩︎
-
Anthropic. "Claude's Constitution" (PDF) January 21, 2026. CC0 1.0. ↩︎
Discussion