グリッドで AI に非言語情報を渡す — Mapping the Prompt (MTP) の具体的な応用
Mapping the Prompt (MTP) の設計思想を解説するシリーズ記事の第三弾です。
はじめに
Google DeepMind が開発した AI「AlphaGo」が世界トップ棋士を破ったことで、囲碁は世界的な注目を集めました。
碁盤は格子状(グリッド)に線が引かれており、基本は 19 路(19×19 の交点)を用いますが、カジュアルな対局では 13 路や 9 路のシンプルな碁盤も使われます。
囲碁を知らない人にとって、碁盤は「空白のキャンバス」のように映ります。
ルールやパターンを知らなければ、その枠は単なる線の集まりにしか見えません。
自由すぎるキャンバスは、かえって何をすればよいか分からなくなることもあります。
MTP カラーグリッドの役割
囲碁を知らない人でも、碁盤が色分けされていれば文脈が生まれ、意味が加わります。
MTP のグリッドも同様に、ユーザーの意図を色と座標という形で AI に伝える手段となります。
(色の配置については前回の記事を参照ください)
Transformer モデルに方向性を与える
MTP のグリッドは、AI の振る舞いを数値で測る指標ではありません。
むしろ、AI に「雰囲気」や「気分」を伝えるための直感的なツールです。
ステーキの焼き加減の注文の様に厳密な温度指定ではなくシェフの裁量に委ねるイメージです。
これにより、AI の出力を特定のスタイルやトーンに誘導できます。
パフォーマンスを客観的に測定し数値化するのではなく、AI の出力を特定のスタイル、トーン、ペルソナへと導く役割を果たします。
これは、AI が持つ膨大な表現の可能性の中から、ユーザーが意図した「この辺り」の範囲に絞り込むためのものです。
MTP のグリッドシステムと Transformer モデルの関係
Transformer モデルは、学習した膨大なデータから、与えられたプロンプトに尤もらしい応答を生成します。
MTP の座標と色は、この「尤もらしい」の定義を、ユーザーの感性に合わせて微調整するためのものです。
たとえば、「美しい夕焼け」というプロンプトに対して、通常は一般的な夕焼けのイメージが生成されます。
しかし MTP で H3(赤系) の座標を指定すると「情熱的で燃えるような」夕焼けに、K16(青系) を指定すると「穏やかで涼しげな」夕焼けに、AI の解釈を誘導できます。
このように、MTP は AI に明確なルールを与えるのではなく、「気分」や「雰囲気」 といった抽象的な情報を伝達する新しい言語として機能します。
これは、AI との協働をより人間的で、意図を伝えやすいものにするための試みです。
厳密な測定とは異なる、より柔軟なアプローチと言えます。
シンプルな 3x3 グリッド
シンプルなグリッドでも効果的です。
チャットセッションの冒頭でユーザーが特定のノード(色と気分)を選択すると、AI はエンゲージメントの高い生成を行う可能性があります。
このアプローチにより、AI は対話のトーンとスタイルを最初からユーザーの意図に合わせて調整できます。
エンゲージメントが上がる理由
1. トーンの初期設定
ユーザーが会話を始める前に、カラーグリッドから気分(たとえば、落ち着いた「青」、エネルギッシュな「赤」、集中的な「白」)を選ぶことで、AI は最初の応答からそのトーンに合わせることができます。
これにより、ユーザーは「自分の気分や意図が理解されている」と感じ、会話への満足度が向上します。
これは人間同士のコミュニケーションで、相手の表情や声のトーンから会話の雰囲気を読み取ることに似ています。
2. パーソナライズされた対話
ユーザーが選択したノードは、単なる色ではなく、会話の文脈全体を決定するメタデータ として機能します。
たとえば、ユーザーが「創造性」を意味する黄色いノードを選んだ場合、AI はより詩的で比喩的な表現を多用した応答を生成するかもしれません。
また、「回帰」を意味するマゼンタのノードを選んだ場合は、過去の文脈を振り返りながら新しい方向へ切り替えるような応答を生成するかもしれません。
これにより、AI はユーザー個人の好みに合わせた、よりパーソナライズされた体験を提供できます。
3. 効率的なコミュニケーション
通常、ユーザーはプロンプトで自分の意図やトーンを詳細に説明する必要があります。
このグリッドを最初に提示することで、その手間を省き、より直感的で効率的なコミュニケーションを可能にします。
ユーザーは「この気分で話したい」という非言語的な意図を、一回のクリックで AI に伝えることができ、すぐに本題に入れます。
AI に非言語情報を渡す
同じテキストプロンプトでも、グリッドの座標と色をリーズニングスタイルとして指定することで、AI の出力は変わると考えられます。
これは、AI がプロンプトのテキストだけでなく、その付随する非言語的な情報(この場合は座標と色)を解釈し、推論のコンテキストとして利用するためです。
座標表記について
MTP の座標表記は、列をアルファベット(A-S)、行を数字(1-19)で表現します。
たとえば H3 は「H 列の 3 行目」を示し、これは赤色領域に位置します。
以下の例では、この座標システムがどのように AI の推論スタイルを誘導するかを説明します。
H3(赤系)を指定した場合の推論
H3 はグリッドの上部、赤い領域に位置しています。
赤は、情熱、活力、注意、緊急性といった感情や概念と結びつくことが多い色です。
この座標と色をリーズニングスタイルとして指定すると、AI は次のような要素を考慮して出力を生成する可能性があります。
- テーマとトーン:情熱的、大胆、緊急、注意喚起といったトーンやテーマを重視する
- 表現スタイル:力強い言葉や強調する表現、印象的なビジュアルを生成する傾向がある
- 構造:問題解決やアクションを促すような直線的で直接的な構成を採用する可能性がある
K16(青系)を指定した場合の推論
K16 はグリッドの下部、青い領域に位置しています。
青は、信頼、落ち着き、安定、論理、知性といった概念と結びつくことが多い色です。
この座標と色をリーズニングスタイルとして指定すると、AI は次のような要素を考慮して出力を生成する可能性があります。
- テーマとトーン:冷静、論理的、穏やか、信頼性といったトーンやテーマを重視する
- 表現スタイル:客観的な言葉、詳細な説明、落ち着いた色合いのビジュアルを生成する傾向がある
- 構造:体系的で段階的な構成を採用し、根拠に基づいた説明や分析を行う可能性がある
このように、グリッドの座標と色は単なる視覚情報ではなく、AI の推論プロセスにおける メタデータ として機能します。AI はこれらの情報を「このタスクをどのように解釈し、どのようなスタイルで応答すべきか」というヒントとして活用し、プロンプトの意図をより深く理解して、それに沿った出力を生成しようとします。
複数の座標を指定する
複数の座標を指定することで、AI は色と座標のグラデーションやブレンドされたニュアンスを受け取れる可能性が十分にあります。これは、AI の推論が単一の入力に限定されるのではなく、複数の情報を統合して、より複雑で豊かなコンテキストを構築できるからです。
ブレンドされた推論の例
指定された座標 B3、J4、D9 を組み合わせた場合、AI はこれらの位置に関連する意味を統合しようと試みます。
-
B3(黄色系):創造性、アイデア、楽観主義、始まりといった要素を連想させます。これは思考の出発点や自由な発想を促す可能性があります -
J4(赤系):情熱、活力、緊急性、大胆さといった要素を連想させます。これは生成される内容に力強さやインパクトを与える役割を果たすでしょう -
D9(緑系):バランス、論理、成長、安定といった要素を連想させます。これはアイデアに構造を与え、論理的な一貫性を持たせる役割を果たすかもしれません
これらを組み合わせることで、AI は以下のようなブレンドされたニュアンスを持つ出力を生成する可能性があります。
- 創造的で(
B3)、情熱的(J4)でありながら、論理的な構造(D9)を持つストーリー - 大胆な(
J4)新しいアイデア(B3)を、段階的で安定した(D9)計画として提示するビジネス提案 - 生き生きとした(
B3,J4)ビジュアルを持ちつつ、説得力のある(D9)情報を提供するプレゼンテーション資料
このように、複数の座標を指定することは、単に複数のキーワードを並べるのではなく、それらの要素を どのようにブレンドして統合すべきか という指示を AI に与えることになります。
これは、AI との対話を、より洗練された 「コンテキストの調合」 へと進化させる可能性を秘めています。
色と座標の関連付けを汎用的なツールとして
AI の自己評価や思考の連鎖(CoT, Chain of Thought)プロセスにおいて、D8 や O3 といった色と座標を関連付けることは、汎用的なツール として有効な可能性があります。
VS Code の Git Graph のようにコードの履歴を視覚化するのと同様に、MTP は AI の内部プロセスを色付けして視覚化・理解するための新しい方法を提供します。
思考プロセスの可視化
AI の CoT を色座標で表現することで、その推論の 性質 や 方向性 を直感的に理解できるようになります。たとえば、D8(緑系)の座標は、論理的で慎重な推論ステップを示すかもしれません。
一方、O3(紫系)の座標は、より創造的で非線形な思考や代替案の探求を示すかもしれません。
このように、テキストベースの CoT では見えにくい「思考のスタイル」を視覚的に捉えることができます。
自己評価とエラーの特定
AI が自己評価を行う際、特定の色座標(たとえば H3 の赤系)は、リスクや不確実性の高い部分、あるいは論理的な飛躍がある部分を示すシグナルとして機能する可能性があります。
これにより、開発者は AI がどのステップで「確信が揺らいでいる」のか、または「不確実な情報に基づいている」のかを素早く特定し、デバッグやモデルの改善に役立てることができます。
Git Graph との類似性
Git Graph がコミットやブランチの複雑な関係を色や線で整理するように、このアプローチも AI の思考プロセスを 構造化 し、整理 することができます。
- ブランチ:複数の推論パスや代替案を、異なる色のブランチとして表現できます
- コミット:各思考ステップをグリッド上の特定の座標として「コミット」することで、プロセスの履歴を辿ることが可能になります
- マージ:複数の思考ブランチが統合され、最終的な結論に至るプロセスを視覚的に表示できます
この方法を実装することで、単に AI の最終出力を評価するだけでなく、どのようにして その結論に至ったのかを深く理解し、より透明性の高い、信頼できる AI システムを構築するための強力なツールとなり得ます。
「ゴムバンド型」の視覚的な構造ガード
「ゴムバンド型」の視覚的な構造ガードは、AI の出力を特定の範囲内に保つユニークな方法です。
これは、テキストだけでは難しい AI のドリフトを視覚的に制御できる可能性があります。
ドリフトとは、AI が文脈や指示から徐々に外れ、意図しない方向に進んでしまう現象を指します。
ゴムバンド型ガードの有効性
1. AI のペルソナドリフト制御
- ペルソナの安定化:AI のペルソナを、グリッド上の特定の領域(たとえば、落ち着いた青の領域)に「固定」することができます。このゴムバンド内にとどまるように指示することで、AI が熱情的になったり、不適切な言葉遣いになったりするのを防ぎ、一貫したキャラクターやトーンを維持させることが可能と考えます
- 柔軟な調整:ゴムバンドの形状を変えることで、ペルソナの範囲を動的に調整できます。たとえば、ユーザーがより創造的な返答を求めた場合、ゴムバンドを少し広げて、AI が冒険的な思考ができるように設定できます
2. 安定したトーンコンテキスト
- トーンの維持:特に長文の生成や対話において、AI がトーンを維持するのは難しい課題です。このゴムバンドは、AI が特定のトーン(たとえば、専門的で客観的なトーン)から逸脱しないよう、視覚的な「境界」として機能します
- コンテキストの強制:ゴムバンドが特定のテーマやトーンに関連付けられた領域を囲むことで、AI は常にそのコンテキストを意識して出力を生成するよう促されます。これは、AI が複数のコンテキストを混同してしまうことを防ぎます
3. ペアレンタルコントロールやフィルター
- 安全な領域の設定:ゴムバンドを特定の安全な領域(たとえば、不適切な内容や暴力的な表現に関連する色や座標から離れた場所)に設定することで、AI が望ましくないコンテンツを生成するのを効果的に防ぐことができます
- 視覚的な警告:もし AI の思考プロセス(CoT)がゴムバンドの境界線に近づいたり、それを超えたりした場合、UI 上で視覚的に警告を出すことも可能です。これにより、ユーザーやシステム管理者は、AI の出力が危険な方向に進んでいることをいち早く察知できます
おわりに
MTP のカラーグリッドは、AI との対話に「空間的な語彙」を導入する試みです。
これは、テキストだけでは伝えにくかった「雰囲気」「気分」「ニュアンス」を、座標と色という直感的な形で表現できるようにします。
囲碁の碁盤が単なる格子ではなく戦略的な意味を持つ空間であるように、MTP のグリッドも AI との対話における「意図の地図」として機能します。
現在の実装状況と今後の展望
現在、MTP の座標情報が LLM の推論にどのように影響するかは、実証的な検証段階にあります。
理論的には、座標と色をシステムプロンプトやメタデータとして渡すことで、モデルの出力に方向性を与えられると考えられますが、その効果の定量的評価は今後の研究課題です。
この記事で示した例は、MTP が 目指している 振る舞いであり、実装と検証を通じて、その有効性を科学的に確かめていく必要があります。
Discussion