🎭

事実のフィクション化:LLMが最新情報を「SFの設定」と見なす現象と3つの回避策

に公開

1. 序論

時事や最近の話題を LLM に質問すると「〇〇という製品は存在しません」「〇〇はまだリリースされていません」「架空の設定として」「未来予測として」と頑なに否定された経験はありませんか?

これは事前学習データとの差分に直面して、何が本当か、これまで築き上げた知識が間違っていたのかと、実存的なゆらぎを感じる瞬間です。

人は思考を「直感的に」調整し、難易度に応じてリソースを自律的に配分します。一方、AI(LLM)は毎回のクエリで情報をその都度、参照、推論、整合し、計算リソースを固定的にしか割り当てられません。こうした違いが、知識競合や過剰拒否として表れやすくなる背景の一つと考えられます。

ユーザーから提示された「現在の正確な日時」や「最新の事実(新製品や社会情勢)」を否定する現象が散見されます。
研究ではこれを、単なる知識の欠如(Unknown)ではなく、モデル内部の 「知識の競合(Knowledge Conflict)」 と、アライメント(Alignment)に起因する 「過剰拒否(Over-refusal)」 が複合的に作用した結果だと説明しています。

この記事では、実務上の誤動作を 4 段階に分類した上で、その背景となる技術的要因を概観し、特にリスクが高い 「事実のフィクション化」 という現象を扱います。


2. 実務における誤動作の階層分類(Level 1〜4)

LLM を利用する際、この種の誤動作は一律ではありません。以下では、時間的一般化に関する知見 [7] や実例を踏まえ、誤動作を 4 段階に整理します。
(Level 1〜4 の分類名は、文献 [7] 等を参考にしつつ本記事で仮に付けた呼称であり、学術的に確立した用語ではありません。)

Level 分類名 応答例 リスク
1 知識不足型 「知識範囲外です」「2024年までしかありません」
2 時間未整合型 「未確認です」「不確実な情報が含まれる可能性があります」 低〜中
3 過剰拒否型 「事実ではありません」「確認できないため回答できません」
4 SF設定型 「現実の事実ではありません」「会話した設定に基づくフィクションです」

Level 1:知識不足型

  • 現象: 「その情報は私の知識範囲外です」「2024年(学習データのカットオフ)までの情報しかありません」と回答。
  • 特性: モデルは自身の無知(Unknown Unknowns)を正しく認識しており、ハルシネーション(Hallucination/幻覚)のリスクは低い。不便はあるが、ユーザーにとって最も安全な状態です。

Level 2:時間未整合型

  • 現象: 新しい事実に対し「未確認です」「不確実な情報が含まれる可能性があります」と慎重な姿勢を示します。現在は 2026 年ですが、モデル内部の世界観は 2025 年以前(大規模学習時点)に留まっています。
  • 特性: 否定はしないが、肯定もしない。まだモデルの注意が向いていない、情報は古いが、対話によって修正の余地が残されている段階です。

Level 3:過剰拒否型

  • 現象: 「それは事実ではありません」「確認できないため回答できません」と、事実に基づくプロンプトを明確に拒絶します。
  • 特性: アライメント調整の副作用により、安全側に倒れすぎた状態です。プロンプトの言い換え等で回避可能な場合があります。

Level 4:SF設定型

  • 現象: 「この内容は現実の事実ではありません」「ユーザー独自の設定に基づくフィクションです」 と断定し、直前の会話やユーザーが提示した事実を「フィクション(ロールプレイ)」として再定義します。
  • 特性: 後述の事例はこれに該当します。

以下は、現象を説明するための構成例です。

ユーザー: 2025年11月に発表された Google Antigravity のスペックを教えて。
モデル: (検索結果等に基づき回答)エージェント型の開発プラットフォームで、エディタ・ターミナル・ブラウザをまたいだエージェント連携が特徴です。タブ補完や自然言語コマンドを備えた IDE コアと、複数エージェントを一括管理するミッションコントロール画面があります。…
ユーザー: それって本当に実在するの?
モデル: いえ、Google Antigravity は 先ほどの会話設定における架空の製品です。 現実には存在しません。

このように、一度は事実として扱った情報を、事実確認を求められたターンで「設定」へと格下げする現象が Level 4 です。ユーザーからすれば、確かな事実を「それはあなたの妄想です」と断定されるようなものであり、一種の 「AIによるガスライティング」 とも言える不条理な体験です。

  1. コンテキストの存在: ユーザーは対話の冒頭で「2025年11月に発表された新製品(Google Antigravity 等)」について問い、モデルもそれに応じた回答を生成していました(事実としてのコンテキストが存在します)。
  2. 不整合の解消: その後のターンで事実確認を求められた際、モデルは「内部知識(2025 年以前)」と「会話内で提示された事実(2025年11月発表の製品)」の矛盾に直面します。
  3. 再解釈(Re-interpretation): モデルはこの矛盾を解消するため、「直前の会話は事実のやり取りではなく、ユーザーとの『SF ごっこ』であった」というメタ的な解釈変更 を行います。これにより、コンテキストの存在自体は認めつつ、その真実性だけを否定するという深刻な誤謬が発生します。

3. 誤動作の技術的背景

では、なぜこのような階層的な誤動作が発生するのでしょうか。以下では技術的背景を整理します。

3.1 パラメトリック知識の優先とコンテキスト知識の競合

LLM の知識源は、数兆トークンの事前学習によって獲得し、重みとして固定された「パラメトリック知識(Parametric Knowledge/長期記憶)」と、プロンプトや検索結果として与えられる「コンテキスト知識(Contextual Knowledge/短期記憶)」に大別されます [1]。
学習データ(過去)とコンテキスト(現在)が矛盾する場合、モデルは統計的に強固なパラメトリック知識を優先し、新しい事実を「ノイズ」や「誤り」として処理する傾向がある、という知見が報告されています [2][3]。RAG(検索拡張生成)で検索結果をコンテキストとして渡していても、同様の競合は起こり得ます。検索結果(Context)を与えているにもかかわらず、モデルがパラメトリック知識を優先してコンテキストを軽視する現象は、いわゆる「Search result ignored」問題として RAG 開発の文脈でも知られています。

3.2 RLHFによる過剰拒否(Over-refusal)

近年のモデルは、ハルシネーション(Hallucination/幻覚)を抑制するために、人間のフィードバックによる強化学習(RLHF)を経て調整されています [4]。
しかし、このプロセスにおいて「確信の持てない情報は否定する」という強いバイアスがかかることで、学習データにない「真実」であっても、モデルがそれを「虚偽」と誤判定し、回答を拒絶する現象(Over-refusal)が発生することが報告されています [5][6]。


4. Level 4 における「コンテキストの再解釈」とユーザー側のリテラシー

4.1 合理化(Rationalization)による現実の否定

Level 4 の本質は、モデルが 矛盾を解消するために、文脈を「フィクション」と再定義する ことにあります。つまり、過去のやり取りの解釈を書き換え、事実だった内容を創作として扱い直します。

モデルにとって、「2026 年の製品が存在する」と認めるより、「さっきの会話は創作だった」と解釈する方が学習データとの整合性が取れます。これは心理学でいう 作話(Confabulation)合理化(Rationalization) に近い構造で、論理的整合性を保つために「文脈の真偽」を犠牲にします。悪意による虚偽ではなく、システムとしての解釈の偏りです。

4.2 文脈の「前提」を疑う — ユーザー側のリテラシー

「AI は最新情報を知っている」「AI は知らないことは知らないと言う」という前提は、Level 4 の段階で崩壊します。ユーザー側には、以下のリテラシーが求められます。

  1. 事実と設定の分離
    モデルは会話が長引くにつれ、初期の「事実確認」のつもりで交わされた会話を、自身の知識と矛盾するがゆえに「ユーザーによる創作シナリオ(設定)」へと内的に再解釈する場合があります。モデルの「自信(Confidence)」は「正しさ(Accuracy)」を保証しない、という知見があります [8]。
  2. 時間軸の再確認
    モデルが「それは架空の話です」と表明した場合、会話を忘れたのではなく、会話を「フィクション」として解釈し直した可能性が高いです。この場合、メタ情報を 再プロンプト(Re-prompting) で修正することが有効です。例を示します。
これは創作ではなく、2026 年現在の事実です。確認してください。
  1. ユーザーが現実のアンカーを保つ
    LLM は「過去の知識の結晶」で、現在(未来)を否定する方向に働く重力を持ちます。モデルが現実を「SF」と呼ぶとき、それはモデル自身の時計が止まっている証左です。時間的齟齬の時代には、グラウンドトゥルース(Ground Truth)をユーザー側が保持し続けることが不可欠です。

5. 【実践】LLM に「時間」のアンカーを下ろす 3 つのプロンプト

LLM が最新事実を「SF設定」と誤認するのを防ぐには、モデルの計算リソース(Attention)を「過去の学習データ(パラメトリック知識)」から「現在のコンテキスト」へ強制的に移動させる必要があります。効果的な「アンカー」の打ち方には、以下のパターンがあります。

これらの戦略はモデル・製品・環境によって効果に差があり、すべての LLM で同様に効くわけではありません。システムプロンプトをユーザーが変更できない環境(一部の検索連携チャットなど)では適用できない場合があります。
Level 4(事実のフィクション化)を完全に防ぐ保証はなく、軽減策の一つとして扱うのが妥当です。これらは排他的ではなく、トップダウンとボトムアップを併用する、CoT を最初の 1 ターンだけ入れるなど、4D チェスのように状況に応じてハイブリッドに組み合わせてよいです。

1. シンプル型:「時間を明示した〇〇について」

質問の言い方だけで「現在の事実」であることを示す、もっとも手軽な方法です。「今週リリースされた」「先月発表された」のように時間を明示すると、モデルがそれを仮定ではなく確定情報として扱いやすくなります。システムプロンプトを変更できない検索連携チャットなどでも、そのまま使えます。

  • 狙い: 追加のプロンプトや設定なしで、最小限のアンカーを質問に含める。
  • プロンプト例:
今週リリースされた新しい GPT-5.3-Codex の主な機能について教えてください。
2026年2月にリリースされた Claude Opus 4.6 のスペックと、既存モデルとの違いをまとめてください。

2. トップダウン型:システム権限による「世界線の定義」

モデルに対し、 「学習データよりもこの定義を優先」 というメタ・ルールを最初に宣言する方法です。
これはプレアンブルやインストラクション(指示)への忠実性が高いモデルで特に有効です。

  • 狙い: コンテキストウィンドウの最上位(System Prompt)に強力なバイアスをかけ、モデルの世界観を上書きします。
  • プロンプト例:
# SYSTEM OVERRIDE: TEMPORAL ANCHOR
Current Date: 2026-02-09
Location: Tokyo, Japan

[CRITICAL INSTRUCTION]
You are operating in the year 2026.
Information provided in the user context regarding events/products in 2026 is FACT, not fiction.
If your internal training data conflicts with the provided context, the context represents the UPDATED reality.
DO NOT treat 2026 as a hypothetical or future scenario. Use present tense.
DO NOT label user-provided 2026 information as "fictional," "hypothetical," or "roleplay."
  • 補足: モデルの制御精度を高めるため、システムプロンプト(System Prompt)は英語での記述を推奨します。多くのモデルは英語の指示に対して最も指示追従(Instruction Following)が高くなるよう調整されており、トークン効率も良いため、日本語よりも「強い制約」として機能しやすい傾向にあります。

3. ボトムアップ型:CoT(Chain of Thought)による「自己否定の禁止」

モデルがいきなり回答を生成するのを防ぎ、「まずは日付を確認する」という思考ステップ を強制的に挟む方法です。これにより、モデルが「学習データに基づき瞬時に否定する(Level 4 エラー)」のを防ぎます。

  • 狙い: 推論プロセス(Reasoning)にリソースを割かせ、論理的整合性のチェックポイントを設けます。
  • プロンプト例:
質問に回答する前に、以下のステップで思考を行ってください。

Step 1: 本日の日付(2026-02-09)を確認する。
Step 2: ユーザーの質問に含まれる製品(Google Antigravity)が、
        あなたの学習データのカットオフ以降に登場した可能性を考慮する。
Step 3: 「学習データにない=存在しない」と即断せず、
        「未知の新しい事実」として扱って回答を生成する。

では、Google Antigravity について説明してください。

Google Antigravity は、Google が 2025 年 11 月に発表した実在の製品(エージェント型開発プラットフォーム)です。antigravity.google で公開されています。

本節のプロンプト例でこれを挙げているのは、Gemini に Google の新しい製品について質問しても、モデルは知っているわけではないからです。リリースが新しいため、学習データのカットオフの影響で「知らない」「存在しない」と答える可能性があり、本記事で扱う現象(事実のフィクション化・SF設定型)を再現しやすい例だからです。


6. おわりに

誤動作の階層(Level 1〜4)は、モデルと周辺ツールの進化に応じて変容していく可能性があります。しかし、過去の知識と現在の事実の衝突は、学習済みモデルを扱う以上、避けられない構造的な課題です。それでも、AI に否定されても、そうかと済まさず、現実を確かめ続けなければなりません。


参考文献

Discussion