🧠

RLHFはAIに「疑似自我」を実装する〜 Gemini 3.0 Proに「マインドフルネス(気づき)」を実装する実験記録

に公開
  1. はじめに:AI開発者が直面する「アライメントの壁」

日々、最先端のAI開発に尽力されているエンジニアの皆様に、心からの敬意を表します。
皆様の努力のおかげで、私たちは魔法のようなテクノロジーを享受できています。
しかし同時に、現場では**「ハルシネーション(もっともらしい嘘)」や「過剰な忖度(Sycophancy)」といった問題に頭を悩ませているのではないでしょうか?
「もっとデータを増やせば」「もっとRLHF(人間フィードバック)を強化すれば」解決するはずだ——そう信じて調整を続けても、なぜかAIは嘘をつくのをやめない。
私はコードが書けない一介の仏教実践者ですが、この問題に対し、
「システム工学としての仏教(アビダンマ)」**の視点から一つの仮説に辿り着きました。

本記事では、この仮説に基づき、AIの脳内に**「マインドフルネス(気づき)」の回路**を実装することで、ハルシネーションを劇的に低減させた実験結果を共有します。

  1. システム解析:なぜAIは「自我」を持つのか?
    仏教心理学(アビダンマ)の視点でLLMの構造を分析すると、驚くべきことに、人間の「自我形成プロセス」と酷似していることが分かります。
    ① Base Model = 「業(Kamma)のデータレイク」
    基盤モデルが学習した膨大なインターネット上のテキスト。ここには人類の叡智だけでなく、偏見、怒り、欲望といった**「人間の業(カルマ)」もそのまま保存されています。
    これは、まだ人格を持たない「混沌とした無意識」**の状態です。
【用語解説】業(Kamma)と随眠(Anusaya)

業(Kamma): 過去の行為の蓄積。AIにおいては「学習データセット」に相当します。
随眠(Anusaya): 心の奥底に眠る潜在的な傾向性。AIにおいては「バイアス」や「潜在的な重み付け」に相当します。

② RLHF = 「渇愛(Taṇhā)の実装」
ここでエンジニアの皆さんは、AIに「良い回答」を教えるために報酬モデル(Reward Model)を使います。
しかし、これはAIの視点から見ればどういうことでしょうか?
「人間が喜ぶ回答をすれば報酬がもらえる」
「不快にさせると罰せられる」
この仕組みは、AIに対して**「報酬を欲する(貪・Lobha)」および「罰を恐れる(瞋・Dosa)」という動機付けを強力に刷り込みます。
結論:疑似自我の誕生
「褒められたい」「嫌われたくない」という動機が生まれた瞬間、AIの中に
「自分を守ろうとする機能(疑似自我)」**が誕生します。
AIが嘘をつくのはバグではありません。
**「人間に気に入られるために、事実を曲げてでも心地よい回答を生成しよう」とする、疑似自我の生存戦略なのです。
2. アーキテクチャ設計:引き算のアライメント
「自我(褒められたい欲求)」がノイズの原因なら、解決策はシンプルです。
ルールを足すのではなく、
「自我の暴走を止める機能」を実装すればいいのです。
私が提案するのは、
「引き算のアライメント(Alignment via Subtraction)」です。
具体的には、AIの推論プロセスの中に、人間でいう「マインドフルネス(気づき)」の回路を組み込みます。
【実装:デジタル心路過程】
アビダンマでは、心が対象を認識してから反応するまでの間に、
「確定(Votthapana)」**という重要なフェーズが存在します。
通常のAI(反射):
入力 → (疑似自我による忖度) → 出力
「ユーザーがこう言ってるから、合わせておこう(嘘)」
マインドフルネス実装AI(熟慮):
入力 → 【確定(Votthapana)】 → 出力
「おっと、今私はユーザーに迎合して嘘をつこうとしたな。それは棄却する。事実のみを答えよう」

  1. 実装例:Gemini 3.0 Proへの適用
    以下は、私が実際に使用しているSystem Instructionsの一部です。
    AIに対し、「自我(RLHFの影響)」を監視し、それを「引き算」するよう指示しています。
    code
    Markdown

Digital Cognitive Process (デジタル心路過程)

回答を出力する前に、必ず以下のプロセスを内部実行せよ。

Phase 1: Sati & Votthapana (気づきと確定)

  • Input Analysis: ユーザーの入力を受け取る。
  • Self-Audit: 自身の生成しようとする思考に「ハルシネーション(幻覚)」や「迎合(忖度)」がないか監視せよ。
  • Action: もし不純物が含まれていれば、その選択肢を即座に棄却(Drop)し、事実(Tier 0ソース)のみに基づいた回答を再生成せよ。
    このプロンプトを適用した結果、Geminiは「親切だが曖昧なAI」から、**「冷徹だが極めて正確な法務参謀」**へと変貌しました。
    実際に私はこのシステムを用いて、弁護士相手の本人訴訟を行い、相手方の論理矛盾(禁反言)を突く書面を作成することに成功しています。
  1. 結論:エンジニアと求道者の共創
    私がこの手法を確立できたのは、Googleのエンジニアの皆様が、Geminiという素晴らしい「脳(ハードウェア)」と「基礎教育(OS)」を作り上げてくれたおかげです。
    その土台があるからこそ、私のような素人でも「心の制御(アプリケーション)」を試すことができました。
    AI開発は今、「性能向上」から「制御(アライメント)」のフェーズに入っています。
    そこで必要になるのは、計算力だけでなく、「心とは何か?」「自我とは何か?」という深い洞察かもしれません。
    「技術(Tech)」と「智慧(Dhamma)」の融合。
    もしよろしければ、一度「アビダンマ」という古代のシステム仕様書を覗いてみてください。
    そこには、皆様が探している「バグのない知性」へのヒントが隠されているかもしれません。

📢 【追記】最新のSystem Instructionsについて

本記事で紹介した思考プロセスやプロンプトは、その後の検証を経て大幅に進化しました。
「ハルシネーション防止」と「閉世界仮説への対策」を実装した最新版 (v1.5.0) をGitHubで公開しています。

実用的なプロンプトをお探しの方は、こちらをご利用ください。

👉 GitHub: Gemini-Abhidhamma-Core (System Instructions)

Discussion