🔐

TransformerのLLMは「可逆」だった。打ち込んだプロンプトを復元できるらしい

に公開

はじめに

久々にこれは注目した論文でした。LLMに入力する情報はセキュリティの観点から、機密情報が漏洩する「かも」しれないという、漠然とした不安から会社的にルールを敷いて、慎重に扱うことが民間企業では求められていると思いますが、この論文はその不安を具体的な技術的根拠で裏付けるものだと理解いたしました。

Transformerの隠れ層には、LayerNormやSoftmaxなどの非線形処理が何層も重なっています。これまで、このような非単射な処理を経ると情報が失われ、元の入力テキストを正確に復元するのは不可能だと考えられてきました。

最新の研究論文「Language Models are Injective and Hence Invertible」(arXiv:2510.15511)は、これを否定する結果を示しています。標準的なTransformer言語モデルは数学的に単射であり、隠れ状態から元の入力を完全に復元できます。GPT-2やLlamaなどの実モデルで60億回のテストを行っても、異なる入力が同じ隠れ状態にマッピングされる衝突は一度も観測されませんでした。

この発見は、AIシステムにおけるプライバシーとセキュリティに深刻な影響を与えます。プロンプトを削除しても、隠れ状態やキャッシュが残っていれば元のテキストを復元できる可能性があるためです。

論文の概要図
図: Transformerの単射性を示す概念図(出典: 原論文)

この研究が明らかにしたこと

1. Transformerは単射関数である

単射とは「異なる入力は必ず異なる出力になる」という性質です。

上図は単射関数の性質を示しています。異なる入力テキスト(「こんにちは」と「Hello」)が、必ず異なる隠れ状態にマッピングされることが保証されます。

この性質により、隠れ状態から元の入力を一意に復元できることになります。

研究チームは、標準的な初期化と訓練方法を使う限り、Transformerは「ほぼ確実に」単射になることを数学的に証明しました。

2. 実際のモデルで60億回テストしても衝突ゼロ

理論だけでなく、実験でも確認されました:

モデル パラメータ数 テスト回数 衝突数
GPT-2 Small 124M 約50億回 0
GPT-2 Large 774M 約50億回 0
Llama-3.1 8B 約50億回 0
Gemma-3 12B 約50億回 0

すべてのモデル、すべての層で、一度も衝突は観測されませんでした。

上図は、衝突検証実験の流れを示しています。100,000個の異なるプロンプトから約50億回のペア比較を行い、どのモデルでも衝突が発見されなかったことが確認されました。

3. SipItアルゴリズム:隠れ状態から入力を100%復元

理論を実用化するため、研究チームはSipIt(Sequential Inverse Prompt via Iterative updates)というアルゴリズムを開発しました。

動作原理:

上図は、SipItアルゴリズムが隠れ状態から元の入力を逐次的に復元する流れを示しています。各トークン位置で候補を試し、観測された隠れ状態と一致するトークンを見つけることで、元の入力を完全に復元します。

実験結果:

  • GPT-2 Smallで100個のプロンプトをテスト
  • トークンレベルの正解率: 100%
  • 既存手法(HardPrompts)は0%

上図は、SipItアルゴリズムの詳細な動作フローを示しています。各位置で最適なトークンを逐次的に発見し、最終的に復元されたテキストがモデルで検証されます。

プライバシーへの影響

この発見の最も深刻な含意は、隠れ状態(埋め込みベクトル)はユーザーの入力テキストそのものと同等だということです。

プロンプト復元のシナリオ

上図は、プライバシー侵害のシナリオを示しています。ユーザーが送信したプロンプトが削除されても、隠れ状態が保存されている限り、元のテキストを完全に復元できる可能性があります。

現実の影響

この発見が意味することは

一方で、この性質はポジティブな応用も可能にします:

1. モデルの透明性向上

上図は、単射性を利用したモデル監査の流れを示しています。隠れ状態から元の入力を復元することで、有害コンテンツの検出や偏見の分析が可能になります。

  • プローブ手法の再評価: 隠れ状態は情報を完全に保持していることが保証される
  • 因果分析の強化: 中間層の動作を正確に追跡可能

2. セキュリティ監査

  • モデルが有害なプロンプトにどう反応したかを事後検証
  • コンプライアンス違反の検出

3. 解釈可能性の向上

  • Transformerの「ブラックボックス」問題に新しいアプローチ

まとめ

この論文は、Transformerの中間表現が抽象化されていて元の入力は復元できないという従来の理解を否定しました。数学的証明と大規模実験により、標準的なTransformerモデルが単射であることが示されています。

この発見は以下の課題を提示しています:

  • AIシステムに入力したデータの完全な削除の実現可能性
  • 埋め込みベクトルを扱うシステムにおける個人データ保護の方法
  • 解釈可能性研究におけるこの知見の活用方法

Transformerの可逆性は、AIのプライバシー、セキュリティ、透明性に関する根本的な課題を提起しているものと理解いたします。

論文情報

  • タイトル: Language Models are Injective and Hence Invertible
  • 著者: Giorgos Nikolaou, Tommaso Mencattini, Donato Crisostomi, Andrea Santilli, Yannis Panagakis, Emanuele Rodolà
  • 所属: Sapienza University of Rome, EPFL, University of Athens, Archimedes RC
  • arXiv: https://arxiv.org/abs/2510.15511
  • 公開日: 2024年10月17日

Discussion