📕
なぜ、AIに計算問題を解かせてはいけないのか？

2025/06/15に公開
 はじめに近年、ChatGPT をはじめとする大規模言語モデル（LLM）の普及により、文章生成や要約、議論整理などのタスクが効率化され、仕事や学習のスタイルに大きな変化が生まれています。その一方で、ユーザーが LLM に対して「計算も任せられる」と考え、ちょっとした四則演算や利率計算なども自然言語で依頼する場面が増えてきました。しかし、このような使い方は見た目には便利であっても、システム資源の面では意外に非効率であり、スケール性や信頼性の観点から多くの課題を孕んでいます。
本稿では、LLMに計算問題をそのまま解かせることの非効率さを、計算処理の仕組み・資源消費・精度の問題という3つの視点から解説し、最終的に「LLMに計算結果を求めるのではなく、Pythonコードを出力させて自分で実行する」ことが最も合理的な使い方であることを提案します。

 計算処理のためにLLMを使うのは非効率LLM（大規模言語モデル）は主に自然言語を理解し、処理するために設計されており、その演算処理はGPU（例：NVIDIA A100など）上の行列演算に最適化されています。一方、四則演算などの計算を行う際に、多くのLLMでは内部でPython等のスクリプトを生成し、それを別の安全な環境で実行します。ここで使われるのはCPUであり、しかも逐次的にコードを1行ずつ解釈して実行する、いわば「電卓を1行ずつ手で押すような処理モデル」 です。
たとえば、ユーザーが「31415を7で割って小数点以下を切り捨てた整数を答えて」とLLMに入力した場合、LLMは以下のようなPythonコードを内部で生成します：
import math
result = math.floor(31415 / 7)
このスクリプトは安全な仮想環境で実行され、その結果（4487）が取り出され、LLMの出力に反映されます。処理結果そのものは数ミリ秒で得られますが、「コード生成 → サンドボックス起動 → 実行 → 結果の挿入」といった一連の流れは、非常にオーバーヘッドが大きく、 人間がPythonを手元で実行した方がはるかに効率的 です。

 大量の計算リクエストがCPUを詰まらせるGPUは主に言語処理（文章の生成や分類など）に使われ、スクリプトの実行には使えません。もし世界中のユーザーがLLMに計算ばかりさせると、 GPUは暇なまま、CPUキューだけが詰まってしまいます。
たとえば、1万人が同時に「0.05を365乗して」といった単純な利息計算の質問をLLMに投げた場合、それぞれのリクエストが裏でPython実行環境を呼び出すことになります。その処理がすべてCPUで行われれば、 本来LLMが使うべき自然言語処理の処理能力が圧迫され、全体の応答性が低下 します。
さらに、Python実行環境はセキュリティのため、1回1回を別の仮想的な「部屋」で実行します（軽量な仮想マシンやコンテナのようなもの）。これは言い換えれば、 たった1行の割り算のために、仮想のパソコンを一台起動してから電卓を叩くようなもの です。計算自体が1秒かからなくても、この周辺処理にコストがかかりすぎます。

 計算ミスではなく「質問の意図ミス」が起きるたとえPythonでの計算結果が正しくても、LLMがパラメータの読み取りに失敗すると、 正しい計算であっても「誤った質問への答え」 になります。
たとえば「税抜価格が980円、消費税10%を加えた税込価格を整数で」と聞いた場合、本来は math.floor(980 * 1.10) とすべきですが、LLMが誤って「1.08（8%）」と認識したり、「税込み価格にさらに10%上乗せ」と誤解して 980 * 1.10 * 1.10 をしてしまう可能性もあります。ツールは正しく動いても、意図がずれていれば意味のある答えにはなりません。
しかもこのような間違いが発生した場合、最終的な正しさを確認するのはまたLLMの役割です。つまり、「問題を解く」ことと「合ってるかを確認する」ことの両方をLLMに任せると、誤りが検出されずに通ってしまうことがあるのです。

 計算処理と説明処理は分けた方がよいLLMはもともと、複雑な質問の意図を解釈したり、式を言葉にして説明したり、曖昧な指示から求めるべき数式を導き出すことに長けています。つまり「意味を考えること」が得意な一方、「桁を一つも間違えずに計算する」ことは苦手です。そこに無理にPythonを使わせている構造は、あくまで応急処置であり、本質的な解決ではありません。
たとえば「この条件で利益がマイナスにならない最低価格は？」といった問題であれば、 LLMは数式を立てて論理的な説明を出力する役に徹し、その式に基づくPythonコードをユーザーに提示し、ユーザー側で実行する という分担が理想的です。こうすれば、リソースの浪費もなく、誤解による誤計算もユーザー側で即座に発見できます。

 まとめ単純な計算結果をLLMに直接求めるのは非効率であり、システム資源の無駄遣いにもつながります。特にLLMが裏でPythonコードを生成・実行している以上、その分のCPU負荷や起動コストが積み重なると、大規模なサービスにおいては深刻なボトルネックになります。
そこで、より現実的で効率的な運用方法は、LLMに結果を出力させるのではなく、「Pythonコードを書くところまでを任せる」 ことです。たとえば「この利率で何日後に元本が倍になるか、計算するPythonコードを教えて」といった形で依頼し、出力されたコードは自分の環境で実行する。 こうすることで、LLMのリソースは本来の得意分野（式の構造化や問題理解）に集中でき、計算そのものは高速かつ信頼性のある形で処理できます。
つまり、LLMは「電卓」ではなく「数学教師」として使い、式やロジックを考えさせ、実行は自分で行う という分担こそが、現代のAIとの正しい付き合い方なのです。
はじめに

計算処理のためにLLMを使うのは非効率

大量の計算リクエストがCPUを詰まらせる

計算ミスではなく「質問の意図ミス」が起きる

計算処理と説明処理は分けた方がよい

まとめ

Discussion