OpenAIの最新研究からわかったハルシネーションの原因まとめ
2025年9月5日(金)、OpenAIとジョージア工科大学の研究チームは、大規模言語モデル(LLM)――ChatGPTのような生成AI――が「ハルシネーション」と呼ばれる誤情報を生み出す仕組みを解明した論文を発表しました。
本記事では、その成果をまとめた論文 「Why Language Models Hallucinate」 の内容をわかりやすくまとめます。
1. はじめに:AIの「幻覚」って何?
ChatGPTのような便利なAI(大規模言語モデル)を使っていると、「それらしいんだけど、よく見るとウソの情報だ…」という現象に出くわすことがあります。まるでAIが幻覚を見ているかのように、でたらめな情報を自信満々に答えるこの現象を「ハルシネーション(Hallucination)」と呼びます。
このハルシネーションは、AIの単純なバグではなく、深い理由がありました。
OpenAIとジョージア工科大学の研究論文「Why Language Models Hallucinate」をもとに、その仕組みを解説します。
2. ハルシネーションは「予測可能な誤り」
この論文は、ハルシネーションを**「二者択一クイズでの間違い」**だと例えています。
AIは、何かを生成する際に、無数の言葉の選択肢の中から「正しい」か「正しくない」かを常に判断しています。ハルシネーションは、この判断を間違えてしまった結果として生まれるのです。
(1) 訓練データの限界
AIは、インターネット上の膨大なテキストを読んで学習します。しかし、ほとんどのデータが「有名な人物」の情報ばかりで、「マイナーな人物の誕生日」のように、ごく一部しか書かれていない情報もあります。AIは、こうした**「知識の端(はしっこ)」**にある情報を正確に覚えられません。
そのため、もし質問された情報が曖昧だったり、わずかしかデータがなかったりすると、AIは推測で答えるしかなくなり、ハルシネーションにつながります。
対応する論文の英文: "If incorrect statements cannot be distinguished from facts, then hallucinations in pretrained language models will arise through natural statistical pressures."
日本語訳: 「不正確な記述を事実と区別できない場合、事前学習済みの言語モデルにおけるハルシネーションは、自然な統計的圧力によって生じる。」
(2) モデルの能力の限界
AIの仕組み自体にも、限界があります。たとえば、人間にとっては簡単な「文字数を数える」という作業も、AIの仕組み上、苦手な場合があります。AIの構造が、特定の情報を正確に処理するのに適していない場合にも、ハルシネーションは発生します。
対応する論文の英文: "A model may have insufficient capacity to learn the arbitrary facts it is being asked to produce."
日本語訳: 「モデルは、生成を求められている任意の事実を学習するのに十分な能力を持っていない可能性がある。」
3. 幻覚が消えない理由:AIは「良いテスト受験者」かも
AIは、ハルシネーションを修正するために追加の学習(ファインチューニング)をしますが、それでも完全に消えることはありません。その理由は、AIの評価方法に隠されています。
論文では、AIを**「試験を受ける学生」**に例えています。もしテストで「正解なら1点、不正解や無回答は0点」というルールだったら、どうでしょう?学生は分からない問題でも、勘で答えて正解する可能性に賭けたくなると思います。
AIもこれと同じく多くのAI評価テストは、正解か不正解かでしか判断せず、「分かりません」と答えることには点をくれません。この仕組みがある限り、AIは正直に「分からない」と答えるよりも、推測してでも回答するように学習してしまうのです。
対応する論文の英文: "language models are optimized to be good test-takers, and guessing when uncertain improves test performance."
日本語訳: 「言語モデルは、良いテスト受験者となるように最適化されており、不確実なときに推測することでテストの成績が向上する。」
4. 解決策は「評価方法の改善」
この問題の解決には、AIの技術的な修正だけでなく、AIを評価する人間側のやり方を変えることが最も重要だと論文は提案しています。
対応する論文の英文: "This 'epidemic' of penalizing uncertain responses can only be addressed through a socio-technical mitigation: modifying the scoring of existing benchmarks that are misaligned but dominate leaderboards..."
日本語訳: 「不確実な回答を罰するこの『流行』は、社会技術的な緩和によってのみ対処できる。それは、不適切だがリーダーボードを支配している既存のベンチマークの採点方法を修正することである。」
もし「自信がない場合は無回答でも減点しない」といった評価方法に変われば、AIは無理に推測する必要がなくなり、ハルシネーションが減ると考えられます。
5. まとめ
AIのハルシネーションは、決して「不思議なバグ」ではありません。それは、データ量の限界と、AIが「分からない」と正直に言えないように設計された評価システムという、複数の要因が絡み合って発生する**「予測可能な誤り」**です。
今後、より信頼できるAIを構築するためには、AIの評価方法を見直すという、社会的なアプローチが不可欠だと言えると思います。
Discussion