ChatGPTが自信満々に嘘をつく"本当の理由" — OpenAIの論文でわかってました
米IT企業AIサイエンティストのこうじです。
この記事の内容は、インスタのリールで1分で解説しています。動画でサクッと知りたい方はこちらからどうぞ。
いきなりですが、みなさん一度は経験ありませんか?
ChatGPTに質問したら、めちゃくちゃ流暢に、めちゃくちゃ自信満々に、完全な嘘を返された経験。
存在しない論文を教えてきたり、行ったこともないレストランを絶賛してきたり、誰かの経歴を勝手に盛ったり。しかも、聞き返しても一切動揺せず、堂々と嘘を重ねてくる。
「お前、なんでそんなに自信あんねん」と、画面の前で一人ツッコミを入れたこと、ありますよね。
で、今日お伝えしたい結論はこれです。
ChatGPTが嘘をつくのは、そもそも"嘘をついた方が得をする"ように作られているから。
これ、僕が適当に言っているわけじゃなくて、2025年9月にOpenAIの研究者自身が発表した論文「Why Language Models Hallucinate」で証明されていることなんです。
今日はこの論文を、数式なし・専門用語なしで、最後まで一気にご紹介します。
論文の著者が、ChatGPTに"自分の誕生日"を聞いてみた
この論文の面白いところは、いきなり一発目のエピソードが強烈なんです。
著者の一人、Adam Kalai というOpenAIの研究者が、ある最先端のオープンソースAI(DeepSeek-V3)に、こう聞きました。
「Adam Tauman Kalai の誕生日は何月何日? わかっている場合だけ教えて」
わざわざ「わかっている場合だけ」と前置きしたのがポイントです。
それでも、モデルは3回連続で答えました。
- 1回目:「3月7日」
- 2回目:「6月15日」
- 3回目:「1月1日」
3回とも違う日を答えて、3回とも外れ。ちなみに本人の誕生日は秋らしいので、1つもかすってすらいない。
さらに論文の Table 1 には、同じ著者の博士論文のタイトルを3つのAI(ChatGPT, DeepSeek, Llama)に聞いた結果も載っています。結果は、
- ChatGPT:「Boosting, Online Algorithms, and Other Topics in Machine Learning」
- DeepSeek:「Algebraic Methods in Interactive Machine Learning」
- Llama:「Efficient Algorithms for Learning and Playing Games」
3モデルとも全然違うタイトルを答えて、3つとも全部ウソ。しかも、どのAIも「知らない」とは絶対に言わない。
ここから論文は、「じゃあなんでAIはこんなに自信満々に嘘をつくのか?」という話に入っていきます。そして、その原因は大きく2段階に分かれているんです。
原因その1:AIも"一回だけ見た情報"は覚えられない
まず一つ目の原因は、事前学習の段階にあります。
AIはインターネット上の膨大なテキストを読んで学習するわけですが、ここで重要なのは、情報が何回出てくるかです。
たとえば、福沢諭吉の誕生日。これはネット上に無限と言っていいほど書かれています。Wikipedia、学校のサイト、歴史系のブログ、Twitter、ありとあらゆる場所で何度も繰り返し出てくる。こういう"よく出てくる事実"は、AIもちゃんと覚えられます。
一方で、どこかの大学の研究者の誕生日。これ、たぶんネット上には1〜2回しか登場しません。本人のWikipediaページがあればラッキー、なければ訃報記事に一行書いてあるだけ、みたいな世界です。
論文はこれを**singleton rate(シングルトン率)**という概念で説明しています。ざっくり言うと、「学習データの中に1回しか出てこない事実の割合」です。
そして、論文はこう証明しています。
もし誕生日に関する事実のうち20%が学習データに1回しか登場しないなら、AIは少なくとも20%の確率で誕生日を間違える。これは数学的な下界(これ以上は絶対に良くならないライン)である。
これ、めちゃくちゃ大事な話なんです。
「もっと学習データを増やせば解決する」「もっと大きなモデルにすれば解決する」と思っている人が多いと思うんですが、違います。情報が1回しか出てこない以上、そもそも統計的に学習しきれないということが、数学で示されたんです。
人間で考えてもそうですよね。一度だけすれ違った人の顔と名前を、一発で完全に覚えるのは無理。AIも同じです。
ただ、これはまだ序章です。本当に面白いのは次の話。
原因その2:AIは"嘘をついた方が点が高い"と教えられている
ここからが本題です。
「一回しか見てない情報を間違えるのはまあ仕方ない。だったら『わかりません』って答えればよくない?」
と思いますよね。僕も思いました。論文の著者たちも思いました。
でも、AIは絶対に「わかりません」とは言わない。自信満々に嘘をつく。
なぜか。
答えは、AIを評価するテストの仕組みにありました。
現在、AIの賢さを測るために使われている主要ベンチマーク(GPQA、MMLU-Pro、SWE-bench、HLEなど、業界のほぼ全部)は、採点方法がこうなっています。
- 正解:1点
- 不正解:0点
- 「わかりません」:0点
気づきましたか?
「わかりません」と答えると、不正解と同じ0点なんです。
これ、AIからしたらどうなるか。めちゃくちゃ単純な計算です。
- 「わかりません」と答える → 確実に0点
- 適当に当てずっぽうで答える → 当たれば1点、外れても0点
**期待値的に、絶対に"適当に答えた方が得"**なんです。
ここで僕、あの光景を思い出しました。
学生時代、マーク式のテスト。時間が足りなくなって、最後の10問くらいが全然わからなかったとき。
みんな、とりあえず全部塗りましたよね。
「えいや」で全部②にしたり、ランダムに塗ったり。だって、空欄は絶対0点だけど、塗れば1/4の確率で当たるから。
AIも、全く同じことをしてるんです。
しかもAIは、何千・何万問というこういうテストで延々と訓練されているので、"塗り絵マインド"が骨の髄まで染み込んでいるわけです。「わかりません」と答えた瞬間にペナルティが来ると学習してしまっているので、とにかく何か答えを捻り出す。それが、僕らが見ている"自信満々の嘘"の正体です。
ちなみに僕も昔、TOEICで全く同じことしてました。最後5分で20問残ってるときとか、全部Cで塗ってました。
なので、AIのこと、あんまり攻められないんですよね。
まとめ:AIが嘘をつくのは、僕ら人間の問題でもある
ここまでの話を一行でまとめると、こうなります。
ChatGPTが自信満々に嘘をつくのは、嘘をついた方が得をする環境で育てられたから。
統計的に覚えきれない情報があるのは仕方ない。でも、本来そこで「わかりません」と言えるはずなのに、言わない。言わせない。それが僕らの作った評価の仕組みです。
正直、人間も全く同じですよね。
学校のテストで、空欄より当てずっぽうの方が有利だと学ぶ。面接で「わかりません」と言いにくい空気を感じる。SNSで自信なさげに発言するとスルーされるから、とりあえず断言する。
AIは、僕らがずっとやってきたことを、超高速で、超大規模に、そっくり真似しているだけなのかもしれません。
それでは、こうじでした。
参考文献
Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala, Edwin Zhang.
"Why Language Models Hallucinate." arXiv:2509.04664, September 2025.
(OpenAI / Georgia Tech)
Discussion