事前分布を前提としない新しいAIアーキテクチャ:ストリーム型AIと構成的推論
現在のAIの問題
現在のAIの前提となるのはTransformer/Attentionのモデルであり、最も成功しているものである。成功はしているのであるが、なぜ成功し、どこまでが限界なのかは様々な議論がある。
特にハルシネーションと呼ばれる事前学習での学習内容から逸脱した答えの生成のコントロールには様々なアイデアが示されているが、根本的解決策の提示はできていない。また、因果の推論や見たことが無いものに対する構成的推論も苦手であり、限界がある。
異なる基盤からのアプローチ
ここで私は新しいアイデアに基づく、AIのアーキテクチャを考案した。これは理論がベースにはなっているが、実際に動くコードで公開している。
ベースの考え方はシンプルである:
- 我々は絶え間なく動く世界で生きている → 入力は「ストリーム」である必要がある
- 人の認知をベースにすれば → 「事前分布」は無い方がよい
- なるべくニューロンの動きに近づけるため → 様々な「ゲート」機構がある方が良い
これらは物理的な力学として記述できるように設計され、実際に動くことができるまでになった。
ただし、出来上がった構成図は既存のAIからかけ離れたもので、概念やコンセプトを理解するのにかなり幅広い分野の知識が必要となる。少なくとも「ベイズ推定」などは必要ではなく、記号論、神経学、幾何学、情報理論など統計処理に偏らない知識を要求する。
そのため、ここでは少しづつこの新しいアーキテクチャを解説していこうと思う。
CSCTエンジン
このアーキテクチャはCSCT(Clock-Selected Compression Theory:クロック選択圧縮理論)と名付けた一連の公理によって規定される。公理についてはここでは詳しくは触れない。ただ理解のために以下のことがルールとなる。
「入力がストリーム(連続)であり、基本的な係数には非負の制約を課す。入力とアンカーと呼ばれる外部入力を持ち、アンカーの変化(速度)に同期してゲートの開閉が制御される。このゲート機構により離散化が実現される。入力された情報は離散化したコードとなり、たとえ学習が進行しない状態でも推論に再利用される」
設計思想:射影動力学系としての認知
CSCTエンジンは5つの公理を計算可能な形式で実装した神経力学シミュレータである。このエンジンは認知をシンプレックス上で進化する射影動力学系(Projected Dynamical System: PDS) として数学的にモデル化している。
標準的な深層学習が負の重みを許容する無制約ベクトル空間で動作するのとは異なり、CSCTエンジンは非負制約(C ≥ 0)と単位和(Σp_k = 1)を強制する。
これにより、システムは数学的なキャンセルによって「エントロピーを巻き戻す」ことができず、コードブックベクトルで定義されたシンプレックス内で意味を構築しなければならない。これにより内部シンボルは物理的因果に接地される。
アーキテクチャ図
実装した概念図を以下に示す。

図:CSCTエンジンアーキテクチャの概要。
2つのアーキテクチャ:SingleGateとMultiGate
CSCTエンジンには2つの主要アーキテクチャがある:
| 観点 | SingleGate | MultiGate |
|---|---|---|
| 生物学的対応 | 周辺処理 | 中央処理 |
| 計算コスト | 低 | 高 |
| 用途 | 単一ソース波形 | チャネル間関係 |
| 位相処理 | なし(速度ベース) | θ位相による時間的変調あり |
SingleGateは入力特徴(位置・速度・加速度)から直接クロック選択を行う。アンカーの変化率(速度)に応じてゲートが開閉するが、明示的な位相計算は行わない。
MultiGateは3つの神経学的ゲート機構を持つ:
- Na⁺ゲート:ナトリウムチャネルに対応、高速スパースなクロック選択
- θ位相:海馬のθリズムに対応、時間依存のリズム変調
- NMDAゲート:NMDA受容体に対応、θ位相のピークで統合窓が開く
combined_gate = Na⁺_activation × NMDA_activation
NMDAゲートはθ位相に依存して開閉する。これは海馬でLTP(長期増強)が起きやすいタイミングと一致しており、神経科学で知られるθ-γカップリングの計算論的実装となっている。
時間の構造と距離の構造
時間構造の違い
| 観点 | Attentionモデル | CSCTエンジン |
|---|---|---|
| 処理方式 | バッチ(静止画・文字・動画/音声を位置情報で統一処理) | ストリーム(連続時系列) |
| 自己参照 | S(t-1)からS(自分)を作る | 前方向のみ |
| 並列性 | 全情報を一気に処理 | ストリームで進行 |
いまのAttentionモデルでは自己を作るにはS(t-1)の時点からS(自分)を作る。この負の入った構造により、時間が流れていない静止画も文字も、位置情報に換算された動画や音声も同一に扱える。
対してCSCTエンジンではストリーム前提なので、現時点では静止画などをそこまでうまく扱うことはできない。
ここまで見ると制限が多く、速度も出ないように見える。ただ、ストリーム前提で動きながら処理ができるという可能性が高いアーキテクチャである。
距離構造の違い
| 観点 | Attentionモデル | CSCTエンジン |
|---|---|---|
| ノルム | L2(コードが混じり合い抽出困難) | L1に近い(コード取り出しが容易) |
| 負の値 | 許容 | 許容しない |
| ベクトル加算 | 制限なし | 単体(Simplex)に制約 |
| 凸包 | 局所的疑似凸包のみ | 大域的に閉じた凸包 |
なぜTransformerの「Attention」では不十分なのか
Transformerのattention機構は以下のように定義される:
Attention(Q, K, V) = softmax(QK^T / √d_k) V
softmaxの出力は合計が1になるため、結果は値ベクトルVの凸結合となる。表面上は凸包制約を満たすように見える。
しかし、これは局所的疑似凸包にすぎない:
- 各層が独自の局所凸包を持つが、全体として閉じたシンプレックスを形成しない
- 境界がないためエントロピー生成に対抗するために常に増大するリソースが必要
CSCTエンジンでは幾何学的には単体であることが求められ、負の計算も認められず、単純な加算も許されない。
この制約により幾何学的な凸包が情報空間で実現され、それにより構成的推論が成り立っている。逆にいうと今のAIをいくら改良しても構成的推論もハルシネーションの根絶も難しいということになる。
実験8:意味の抽出(Meaning Extraction)
目的
EX8は、離散コードがアンカーを通じて意味を獲得した後、凍結されたシステムが未見の入力を推論できるかをテストする。
実験設計
訓練データ:
- 単独:A, B
- 合成:A+B, A+C, B+C
非公開(Withheld):C単独(一度も単独で見せない)
テスト:学習を停止(勾配なし)した後、アンカー 'c' 単独で、一度も教えられていないC単体を推論できるか?
3つの幾何学的条件
Cの位置を変えて凸包の影響を検証:
- IN_HULL:CがAとBの凸結合(凸包内)
- OUT_HULL:CがAとBの両方に直交(凸包外)
- RANDOM:Cがランダム初期化(ベースライン)
結果(各条件30シード、計90回)
| 条件 | 成功率 | Withheld類似度 |
|---|---|---|
| IN_HULL | 96.7%(29/30) | 0.979 ± 0.025 |
| RANDOM | 53.3%(16/30) | 0.682 ± 0.370 |
| OUT_HULL | 16.7%(5/30) | 0.701 ± 0.242 |
統計的検定:Kruskal-Wallis H = 42.52, p = 5.85 × 10⁻¹⁰
重要な発見:非接地シンボル獲得(Ungrounded Symbol Acquisition)
興味深いことに、OUT_HULL条件でもCは80%のシードでユニークなコードを獲得した。しかし再構成精度は低いままだった。
これは**「非接地シンボル獲得」**と呼ぶ現象である:離散コードは割り当てられ操作されるが、コードブックの構成能力内で再構成可能な意味を持たない。
これはサールの「中国語の部屋」論証の数学的具現化である——システムはシンボルを「扱う」ことができるが、そのシンボルは再構成可能な意味を持たない。
実験9:構文の創発(Syntax Emergence)
目的
EX9は、意味が離散化された後に構文的推論が生じるかをテストする。EX8の鏡像実験である:
- EX8(意味):非公開のプリミティブを観測された合成から推論
- EX9(構文):非公開の合成を観測されたプリミティブと合成から推論
実験設計
訓練データ:
- 単独:A, B, C
- 合成:A+B, A+C
非公開(Withheld):B+C(一度も訓練しない)
テスト:アンカー 'b+c' で、一度も教えられていないB+C合成を推論できるか?
結果(各条件30シード、計90回)
| 条件 | 成功率 | Withheld類似度 |
|---|---|---|
| IN_HULL | 66.7%(20/30) | 0.890 ± 0.138 |
| RANDOM | 33.3%(10/30) | 0.767 ± 0.253 |
| OUT_HULL | 13.3%(4/30) | 0.742 ± 0.168 |
統計的検定:Kruskal-Wallis H = 19.13, p = 7.00 × 10⁻⁵
考察:代数ではなく補間としての構文
EX9の結果は、CSCTにおける構文が代数的規則操作(内容と独立にシンボルを操作)ではなく、コードブックシンプレックス上の重心座標の発見として創発することを示している。
システムは引き算を学習するのではなく、以下のような重心座標を発見する:
f: y_{A+B} → ½v_A + ½v_B
f: y_{A+C} → ½v_A + ½v_C
この写像規則が幾何学的に一貫しているため、非公開入力 y_{B+C} → ½v_B + ½v_C にも一般化できる。
結論
これらから私は人の認知、特に知的活動が「制約」の上に成り立っていると結論付けた。
9つの実験を通じて以下を実証した:
- 離散化はクロック選択により連続ダイナミクスから確実に創発する(EX1-3)
- 不可逆アンカーはノイズとドリフトに対する安定性を提供し、可逆的(自己参照的)システムを長期的に上回る(EX4)
- 結合は共有アンカーへのロックにより暗黙的同期として達成される(EX5)
- 内部時間は信号の変化率(フラックス)に比例して進行し、信号がなければ停止する(EX7)
- 意味的接地は凸包メンバーシップを必要とし、凸包外に割り当てられたシンボルは非接地のまま(EX6, EX8)
- 構文は代数的抽象ではなく重心補間として創発し、構成的推論は訓練された凸包外で劣化する(EX9)
現代のAIは「無限拡張」をスケーリングによって追求する。私は逆を提案する:閉じた制約こそが安定した効率的な知性の必要条件かもしれない。
おそらくCSCTエンジンは、私たちの活動を「OS」として記述できる(設計できる)初めてのプログラムであると考えている。
興味があれば、コードを走らせてほしい。何もライセンス的には制限を付けていないし、これはまだ始まったばかりの取り組みである。これは空想論ではなく実際のプログラムである。
リンク
- コード(GitHub):https://github.com/CSCT-NAIL/CSCT
- 論文(Zenodo DOI):https://doi.org/10.5281/zenodo.18382368
- プロジェクトサイト:https://csct-nail.com
Discussion