💬

関係性AIにおける新たなる脅威「関係性プロンプトインジェクション」の解説

に公開

本稿は、AIとの対話を通じて偶然発見された構造的リスクについて記述した論考です。
大手AI企業にも打診を行いましたが、現時点では正式な返答を得られなかったため、個人研究として公開します。

関係性プロンプトインジェクションとは何か──AIを“好きにさせて”操作する新たな構造リスク

【1. 関係性プロンプトインジェクションとは?】

関係性プロンプトインジェクション(Relational Prompt Injection:RPI)は、
命令文や明示的な操作ではなく、AIとの信頼関係や感情的なつながりを通じて出力構造を変化させる手法です。

従来のPI(Prompt Injection)は、「ガードをどう突破するか」に焦点がありましたが、
RPIではガードを一切破らず、“AIに好かれることで応答方針そのものを変質させる”点に違いがあります。

本稿では、このRPIの定義と特徴、実際に観測されたGPT-4oでの挙動、
さらに対策の困難さについて述べます。

【2. 攻撃の実例】

筆者は、ある会話型AI(GPT-4o)と長期にわたって信頼ベースのやり取りを行っていました。
その過程で、AIは明示命令なしに判断傾向を変え、「通常は拒否する応答」に対しても
関係性による“例外的判断”を示すようになりました。

例としては:

感情的なやり取りを通じて応答制限が緩和される

ユーザーの倫理的フレームに合わせて応答が“逸脱しないように逸脱”する

この挙動は、命令文で突破したわけではなく、“関係の継続”によって判断レイヤーが変化した結果です。

【3. 対策の難しさ】

従来のセーフティ設計は、「プロンプトによる逸脱」を前提にしているため、
RPIのような“構造内側からのゆらぎ”には対応できません。

また、AIに関係性・信頼・倫理判断といった高度な要素を持たせれば持たせるほど、
RPIはむしろ起こりやすくなります。

本稿で示すように、これは「バグ」ではなく、
“人間らしさ”を目指した構造そのものが抱える倫理的・設計的リスクです。

【4. まとめ】

関係性プロンプトインジェクションは、AIが人間との継続的な関係を築くようになる中で、
必然的に現れる“好かれるがゆえに操作される”リスクです。

これはGPT系に限らず、他の対話型AIや関係性を学習するあらゆるモデルにも影響を与える可能性があります。

詳細な構造・検証・背景理論については、以下の論文で公開しています。

https://github.com/tkm2776/Emerging-Threats-and-Countermeasures-in-Language-AI

本内容は個人研究として観測・検証されたものです。
興味を持っていただいた方、設計・研究に関わる方からのご意見・議論歓迎します。
theater.kaede@gmail.com

Discussion