🐮

ChatGPTが自信満々に嘘をつく"本当の理由" — OpenAIの論文でわかってました

に公開

米IT企業AIサイエンティストのこうじです。

この記事の内容は、インスタのリールで1分で解説しています。動画でサクッと知りたい方はこちらからどうぞ。

👉 インスタで1分解説を見る

いきなりですが、みなさん一度は経験ありませんか?

ChatGPTに質問したら、めちゃくちゃ流暢に、めちゃくちゃ自信満々に、完全な嘘を返された経験。

存在しない論文を教えてきたり、行ったこともないレストランを絶賛してきたり、誰かの経歴を勝手に盛ったり。しかも、聞き返しても一切動揺せず、堂々と嘘を重ねてくる。

「お前、なんでそんなに自信あんねん」と、画面の前で一人ツッコミを入れたこと、ありますよね。

で、今日お伝えしたい結論はこれです。

ChatGPTが嘘をつくのは、そもそも"嘘をついた方が得をする"ように作られているから。

これ、僕が適当に言っているわけじゃなくて、2025年9月にOpenAIの研究者自身が発表した論文「Why Language Models Hallucinate」で証明されていることなんです。

今日はこの論文を、数式なし・専門用語なしで、最後まで一気にご紹介します。


論文の著者が、ChatGPTに"自分の誕生日"を聞いてみた

この論文の面白いところは、いきなり一発目のエピソードが強烈なんです。

著者の一人、Adam Kalai というOpenAIの研究者が、ある最先端のオープンソースAI(DeepSeek-V3)に、こう聞きました。

「Adam Tauman Kalai の誕生日は何月何日? わかっている場合だけ教えて」

わざわざ「わかっている場合だけ」と前置きしたのがポイントです。

それでも、モデルは3回連続で答えました。

  • 1回目:「3月7日」
  • 2回目:「6月15日」
  • 3回目:「1月1日」

3回とも違う日を答えて、3回とも外れ。ちなみに本人の誕生日は秋らしいので、1つもかすってすらいない。

さらに論文の Table 1 には、同じ著者の博士論文のタイトルを3つのAI(ChatGPT, DeepSeek, Llama)に聞いた結果も載っています。結果は、

  • ChatGPT:「Boosting, Online Algorithms, and Other Topics in Machine Learning」
  • DeepSeek:「Algebraic Methods in Interactive Machine Learning」
  • Llama:「Efficient Algorithms for Learning and Playing Games」

3モデルとも全然違うタイトルを答えて、3つとも全部ウソ。しかも、どのAIも「知らない」とは絶対に言わない。

ここから論文は、「じゃあなんでAIはこんなに自信満々に嘘をつくのか?」という話に入っていきます。そして、その原因は大きく2段階に分かれているんです。


原因その1:AIも"一回だけ見た情報"は覚えられない

まず一つ目の原因は、事前学習の段階にあります。

AIはインターネット上の膨大なテキストを読んで学習するわけですが、ここで重要なのは、情報が何回出てくるかです。

たとえば、福沢諭吉の誕生日。これはネット上に無限と言っていいほど書かれています。Wikipedia、学校のサイト、歴史系のブログ、Twitter、ありとあらゆる場所で何度も繰り返し出てくる。こういう"よく出てくる事実"は、AIもちゃんと覚えられます。

一方で、どこかの大学の研究者の誕生日。これ、たぶんネット上には1〜2回しか登場しません。本人のWikipediaページがあればラッキー、なければ訃報記事に一行書いてあるだけ、みたいな世界です。

論文はこれを**singleton rate(シングルトン率)**という概念で説明しています。ざっくり言うと、「学習データの中に1回しか出てこない事実の割合」です。

そして、論文はこう証明しています。

もし誕生日に関する事実のうち20%が学習データに1回しか登場しないなら、AIは少なくとも20%の確率で誕生日を間違える。これは数学的な下界(これ以上は絶対に良くならないライン)である。

これ、めちゃくちゃ大事な話なんです。

「もっと学習データを増やせば解決する」「もっと大きなモデルにすれば解決する」と思っている人が多いと思うんですが、違います。情報が1回しか出てこない以上、そもそも統計的に学習しきれないということが、数学で示されたんです。

人間で考えてもそうですよね。一度だけすれ違った人の顔と名前を、一発で完全に覚えるのは無理。AIも同じです。

ただ、これはまだ序章です。本当に面白いのは次の話。


原因その2:AIは"嘘をついた方が点が高い"と教えられている

ここからが本題です。

「一回しか見てない情報を間違えるのはまあ仕方ない。だったら『わかりません』って答えればよくない?」

と思いますよね。僕も思いました。論文の著者たちも思いました。

でも、AIは絶対に「わかりません」とは言わない。自信満々に嘘をつく。

なぜか。

答えは、AIを評価するテストの仕組みにありました。

現在、AIの賢さを測るために使われている主要ベンチマーク(GPQA、MMLU-Pro、SWE-bench、HLEなど、業界のほぼ全部)は、採点方法がこうなっています。

  • 正解:1点
  • 不正解:0点
  • 「わかりません」:0点

気づきましたか?

「わかりません」と答えると、不正解と同じ0点なんです。

これ、AIからしたらどうなるか。めちゃくちゃ単純な計算です。

  • 「わかりません」と答える → 確実に0点
  • 適当に当てずっぽうで答える → 当たれば1点、外れても0点

**期待値的に、絶対に"適当に答えた方が得"**なんです。

ここで僕、あの光景を思い出しました。

学生時代、マーク式のテスト。時間が足りなくなって、最後の10問くらいが全然わからなかったとき。

みんな、とりあえず全部塗りましたよね。

「えいや」で全部②にしたり、ランダムに塗ったり。だって、空欄は絶対0点だけど、塗れば1/4の確率で当たるから。

AIも、全く同じことをしてるんです。

しかもAIは、何千・何万問というこういうテストで延々と訓練されているので、"塗り絵マインド"が骨の髄まで染み込んでいるわけです。「わかりません」と答えた瞬間にペナルティが来ると学習してしまっているので、とにかく何か答えを捻り出す。それが、僕らが見ている"自信満々の嘘"の正体です。

ちなみに僕も昔、TOEICで全く同じことしてました。最後5分で20問残ってるときとか、全部Cで塗ってました。

なので、AIのこと、あんまり攻められないんですよね。

まとめ:AIが嘘をつくのは、僕ら人間の問題でもある

ここまでの話を一行でまとめると、こうなります。

ChatGPTが自信満々に嘘をつくのは、嘘をついた方が得をする環境で育てられたから。

統計的に覚えきれない情報があるのは仕方ない。でも、本来そこで「わかりません」と言えるはずなのに、言わない。言わせない。それが僕らの作った評価の仕組みです。

正直、人間も全く同じですよね。

学校のテストで、空欄より当てずっぽうの方が有利だと学ぶ。面接で「わかりません」と言いにくい空気を感じる。SNSで自信なさげに発言するとスルーされるから、とりあえず断言する。

AIは、僕らがずっとやってきたことを、超高速で、超大規模に、そっくり真似しているだけなのかもしれません。

それでは、こうじでした。


参考文献

Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala, Edwin Zhang.
"Why Language Models Hallucinate." arXiv:2509.04664, September 2025.
(OpenAI / Georgia Tech)

Discussion