なぜ言語モデルは「幻覚(hallucination)」を起こすのか?——OpenAI の統計的視点からの考察
なぜ言語モデルは「幻覚(hallucination)」を起こすのか?——OpenAI の統計的視点からの考察
GPT-5 が登場し、性能は向上しているとはいえ、依然として「幻覚」は完全には消えていません。幻覚とは、モデルが自信満々に語るものの、事実ではない誤った内容です(例:「著者の博士論文タイトル」や「誕生日」などについて、違った誤答を複数出してしまうケース)(OpenAI)。
1. なぜ幻覚をなくせないのか?
◼「テスト対策型評価」がハマりやすい罠
評価が「正確さ」のみでスコア付けされる場合、モデルは“知らないまま推測して答える”方が得点になる設計になってしまいがちです。穴埋めテストで“わからない”と空白を残すより、とりあえず答えた方が得点につながるように、人間の評価モデル(≒モデル自身)も同じように学習してしまいます。結果として、自信のない箇所でも大胆に“作り話”をするような出力を選択しがちに。
◼ 統計的「次の単語予測」そのものの限界
モデルの学習は「次に来る単語を当てる」ことに基づいています。文法的な間違いやスペルミスであれば、大規模データによりだんだん精度は上がります。しかし「誕生日」や「博士論文タイトル」のように、根拠が少なくランダム性の高い情報は、統計的なパターンだけでは正しく生成できず、間違いが起こりやすい――これもまた幻覚の原因となっています(OpenAI)。
2. 解決のヒント:幻覚への「罰則付き評価」を導入する
OpenAI の分析では、単に「正答率」を追い求める評価方法ではモデルが「知らないなら答えない」という選択をしづらくなると考え、むしろ「自信を持って間違うこと」には厳しくペナルティを、そして「不確かなら曖昧な返答をする」ことには比較的甘い評価を与える仕組みが必要だと示唆しています。
◼ 例:SimpleQA ベンチマークでの比較
モデル | 曖昧回答率 | 正答率 | 間違い率 |
---|---|---|---|
GPT-5 thinking-mini | 52% | 22% | 26% |
OpenAI o4-mini | 1% | 24% | 75% |
一見すると o4-mini の方が大正解率(24%)が高いように見えますが、それは自信を持って正答した数ではなく、ただただ「何か出力し続けた結果」の数字です。むしろ、不確かな時には「わかりません」と言える GPT-5 thinking-mini の方が幻覚出力(=間違い)は少なく、安全性が高まります。
3. 応用アイデア
-
スコアリング設計に「曖昧回答を推奨する仕組み」を取り入れる
社内で独自評価をする際に、間違いよりも「適切に返答を控える」姿勢を評価項目に追加するのは有効な一手です。 -
プロンプトに「わからない場合は 'I don’t know' と答えてください」と明記する
技術系プロンプトにおいても、「確証のない回答は避けるように」と指示するだけで、幻覚率を一定程度抑制できます。 -
評価用に「曖昧回答付きデータセット」を用意する
SimpleQA のように、曖昧回答(abstention)を含めた評価セットを自前で構築し、モデルの行動変容を観測することができます。 -
業務用途では「RAG」(Retrieval-Augmented Generation)併用を検討
知識のある情報源(社内 Wiki、ドキュメント、FAQ)を参照させた上で回答を生成させることで、幻覚リスクを下げるアプローチがあります。
4. 誤解しがちなポイントと正すべき認識
-
「幻覚はなくならない」が誤解
正しくは「幻覚は減らせるが完全にゼロにはできない」。むしろ、引き算より「出力時に慎重さを入れる」ことが鍵です。 -
「大きなモデルほど正確」という思い込みも誤り
理解は深まる一方で、「知らないことに対しては自信をもって誤答する」ことが増え、幻覚が逆に増えるリスクもあります。小さなモデルの方が「知らないので答えません」と言いやすい、という意外な側面もあります(OpenAI)。
終わりに
言語モデルの幻覚は単なるバグではなく、学習と評価の設計構造や統計的特性がもたらす不可避な現象です。中級エンジニアとしては、その構造を理解した上で「評価方法」「プロンプト設計」「出力制御」の工夫を通じ、現実的な運用の信頼性を高めていくことが現実的かつ強力なアプローチになります。
技術の奥にある統計のロジックや人間の評価メカニズムにまで立ち入って考えることで、より健全で安全なAI応用が可能になります。ぜひ、開発や成果報告に活かしてみてください。
Discussion