なぜ、LLM AIは数的処理が小学生並なのに、マスコミは「LLM AIが有名大学の数学の試験問題を解いた。凄い!」と言って騒ぐのか?
はじめに
近年、生成AI(Generative AI)の進化、とりわけ大規模言語モデル(LLM: Large Language Model)の登場は、社会に大きな衝撃を与えています。新聞やニュースサイトでは、LLMが有名大学の数学試験を解いた、難問とされる論理パズルを解いたといった話題が頻繁に取り上げられ、「AIはもはや人間を超えた」「近い将来、あらゆる知的労働はAIに置き換わる」といった論調も目立ちます。
しかし、実際に日常的にLLMを使っている利用者からすると、こうした報道には違和感があります。なぜなら、LLMは日常的な数値計算や実務的な数字処理に関しては驚くほど脆弱であり、時に「小学生レベル」と言っても差し支えないほどの誤りを頻発するからです。株式配当や統計データなど、実際の数字を扱う質問に対して、平然とでたらめな数値を作り出してしまうことは珍しくありません。
本稿では、この「LLMは数字が苦手なのに、なぜマスコミは数学の試験問題で騒ぐのか」という矛盾した状況について考察します。特に、LLMが 「計算」そのものはこなせる一方で、「数字をどう扱うと問題を解けるか」という“数的推論”には極端に弱いという構造的な特性を踏まえ、そのうえで報道側の心理的・構造的要因を分析し、最後にこの誤解がもたらす社会的リスクについても触れたいと思います。
LLMが数字に弱い構造的理由
LLMはあくまで「言語モデル」であり、数値処理や論理推論を目的として設計されたものではありません。その基本原理は、過去に大量に蓄積されたテキストを統計的に学習し、「ある文脈のあとにどの単語が来るか」を予測することにあります。つまり、LLMは「計算」や「推論」ではなく、「文脈的な連想」に基づいて動いています。
このため、次のような特徴的な弱点があります。
-
内部に数値的な演算機構を持たない
LLMは足し算や掛け算を理解しているわけではなく、単に「1+1=2」「2+2=4」という文脈を見たことがあるため、その続きを予測しているにすぎません。桁が大きくなったり未見の数値が登場すると途端に誤ります。 -
外部データとの連携がない
現実世界の株式数や人口統計など、外部の事実データと照らし合わせる機構を持たないため、「推論」ではなく「想像」に頼るしかなく、数値をでっち上げやすい構造になっています。 -
構造化データが苦手
数字の比較や加算は表計算的な構造理解が必要ですが、LLMは平文テキストを扱うように設計されているため、構造的な演算に向いていません。
「計算」はできても「数的推論」ができないという本質
重要なのは、LLMが数字に「まったく」弱いわけではないという点です。
実際には、LLMは以下のようにして計算そのものを正しくこなすこともできます。
- Pythonなどのコードを自動生成し、CPU上で実行して計算結果を得る
- 過去に見た「よくある計算パターン」を文字列として再現する
そのため、単純な四則演算や方程式の解法などは正答できることが多く、これだけを見ると「LLMは計算もできる」と錯覚してしまいます。
しかし、実務的な問題ではしばしば「どの数字をどう組み合わせるべきか」を自分で考える必要があります。
ここで必要になるのが数的推論(numerical reasoning) であり、LLMはここが極端に苦手です。
たとえば以下のような問題では、途端に誤りが頻発します。
- 複数年の配当額と発行株式数から総配当額を推定する
→ どの年度の株式数を使うか、どの数字を掛け算するかを自分で判断する必要がある - 交通費や材料費など複数要素を条件に応じて足し引きする
→ 単なる足し算ではなく、条件分岐や文脈理解が要る - 数字を含むグラフや表から傾向や因果を読み解く
→ 「数字を読む」ではなく「数字から意味を導く」必要がある
LLMは「どの数値が何を意味するか」というメタ的理解を持たないため、雰囲気で数字を選び、もっともらしく見えるが間違った答えを作りがちです。
つまり、LLMが得意なのは 「与えられた数値をどう計算するか」 であり、苦手なのは 「どの数値をどう扱えば問題解決につながるか」 なのです。
それでもLLMが「数学問題を解ける」ように見える理由
このように数的推論に弱いにもかかわらず、LLMが大学院レベルの数学試験を解けると報じられるのは、数学という分野自体がLLMにとってオーバーフィッティング(過学習)しやすい構造をしているからです。
-
定型性が高い
数学の証明や問題文は形式がほぼ固定化されており、「こういう文が来たら次はこの論法が続く」というパターン学習が非常に有効に働きます。つまり「推論」ではなく「再現」によって正答にたどり着きやすいのです。 -
訓練データが豊富
インターネット上には無数の過去問・教科書・論文・解答例が存在しており、それらがLLMの訓練データに大量に含まれています。見たことのある問題に似た問題を再構成できるため、まるで理解しているかのように見えるのです。 -
数字より記号処理が中心
高度な数学問題は「数値計算」ではなく「記号操作」が主であり、LLMは記号の並び方を模倣するのが得意です。数値的な正確さが問われないため、「雰囲気で合っている解答」を生成しやすいのです。
つまり、数学問題で高得点を出すことは、必ずしも「推論能力の高さ」や「数値能力の向上」を意味していません。むしろ、LLMの本質的な性質――見たことのあるパターンを再生産する力が偶然うまく噛み合うために、限定的に高得点を取れているにすぎません。
マスコミが数学問題で騒ぐ心理的・構造的要因
それにもかかわらず、マスコミが「数学の試験を解けた」と大きく報じるのには、いくつかの心理的・構造的な理由があります。
-
分かりやすい評価指標を求めている
LLMの性能を測るのは本来非常に難しく、タスクごとに評価軸が異なります。そのため、点数という形で数値化された数学試験は、読者に直感的に伝えやすい指標として安易に使われてしまいます。 -
見出し映えする
「AIが東大院レベルの数学を解いた」という記事は話題性があり、クリック数が見込めます。現実的な制約や限界を伝えるより、派手な成果を報じるほうがニュースとして成立しやすいのです。 -
構造的に限界を伝えにくい
多くのメディアは「できること」を強調するインセンティブがあり、「できないこと」や「構造的制約」について深く掘り下げる文化が弱い傾向にあります。そのため、LLMの本質的な脆弱性にはほとんど触れられません。
結果として、マスコミの報道は「LLMは数学も解けるほど賢い」→「だから全般的に賢い」という誤った印象を世間に与えてしまい、LLMの実態との乖離が拡大しています。
その誤解がもたらすリスク
このような誤解は、単なるイメージの問題にとどまりません。実際の業務にAIを導入する際に、以下のようなリスクをもたらします。
-
LLMの限界を踏まえない誤用
数字や統計を扱う領域にLLMを無批判に導入し、誤った数値を信じて意思決定してしまう。 -
過大な期待による失望
「人間を超えた」とのイメージを前提に導入した結果、実務に使えずプロジェクト全体が失敗する。 -
本質的な評価基準の欠如
本来重視すべき、未整理情報の構造化や矛盾検出といったLLMの本領を軽視し、派手さだけを評価してしまう。
このような失敗はすでに各所で起きており、今後も誤解が放置されれば繰り返される恐れがあります。
まとめ
LLMは数字や数値的推論が極めて苦手であり、実務的な数値処理では小学生レベルの誤りを頻発します。ただし、単純計算や定型パターンであればPythonコードを生成して実行するなどして正答を導けるため、一見「計算が得意」なように見えます。しかし、実務で求められる「どの数字をどう扱えば問題解決につながるか」という数的推論はほとんどできません。それにもかかわらず、マスコミが数学の試験結果をもって「LLMは人間並み」と報じるのは、分かりやすさ・話題性・構造的制約といった要因からであり、LLMの本質的な限界を正しく伝えていません。
私たちは、LLMの本当の価値を見極めるために、数学的な派手な実績ではなく、実務で役立つ能力――未整理情報の整理、長文要約、知識統合、矛盾検出など――に注目すべきです。AIがどこまでできて、どこからできないかを冷静に理解することこそが、過大評価と過小評価の両方を避ける唯一の道だといえるでしょう。
Discussion