「考える」ことの幻想:AIの思考は本当に思考なのか?
本記事は、Apple社の研究チームによる論文「The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity」(Shojaee et al., 2025)の内容を基に、最新のAI推論モデルの能力と限界について解説します。
プロローグ:ハノイの塔に挑む二人のAI
想像してみてください。二人のAIが、有名なパズル「ハノイの塔」の前に立っています。
一人目のAI(通常のLLM)は、瞬時に答えを出します。「3枚のディスクなら7手で解けます」と。
二人目のAI(推論型モデル)は、じっくりと考え始めます。「まず最小のディスクを...いや、待てよ。目標から逆算すると...」何千もの文字を使って思考過程を展開していきます。
あなたは思うでしょう。「明らかに二人目の方が賢い」と。
しかし、本当にそうでしょうか?
第1章:思考の幻想
2024年末から2025年にかけて、AI業界は「思考するAI」の登場に沸き立ちました。OpenAIのo1、DeepSeekのR1、AnthropicのClaude 3.7 Sonnet(思考モード)など、これらの「大規模推論モデル(LRM: Large Reasoning Models)」は、答えを出す前に長い思考プロセスを生成します[1]。
「ついにAIが本当に考えるようになった!」
多くの人がそう思いました。確かに、数学の問題やコーディングのベンチマークでは、これらのモデルは従来のモデルを大きく上回る成績を収めました。
しかし、Apple社の研究チームは疑問を抱きました。「これは本当に『思考』なのだろうか?それとも、より洗練された『思考の模倣』に過ぎないのだろうか?」
第2章:パズルという試金石
研究チームは、AIの真の推論能力を測るため、4つのシンプルなパズルを用意しました[2]:
- ハノイの塔:3本の棒とディスクを使った古典的パズル
- チェッカージャンピング:赤と青のチェッカーの位置を入れ替える
- 川渡りパズル:狼と羊と農夫が安全に川を渡る
- ブロックワールド:積み木を目標の形に並べ替える
なぜパズルなのか?それは、パズルには明確な論理構造があり、複雑さを精密にコントロールできるからです。ディスクを3枚から4枚に、チェッカーを2組から3組に増やすだけで、問題の難易度を段階的に上げることができます。
第3章:衝撃の発見 - 3つのレジーム
実験の結果は、研究者たちの予想を裏切るものでした[3]。
レジーム1:シンプルな問題での逆転現象
驚くべきことに、簡単な問題では「考えない」通常のAIの方が、「考える」AIよりも良い成績を収めたのです。しかも、使用するトークン(文字数)は10分の1以下。
これは、短距離走で、準備運動を入念に行うランナーが、いきなり走り出すランナーに負けるようなものです。
レジーム2:中程度の問題での優位性
問題が少し複雑になると、期待通り「考える」AIが優位に立ちました。長い思考プロセスが、正しい答えにたどり着くのに役立ったのです。
レジーム3:崩壊
しかし、さらに複雑度を上げると...両方のAIが完全に崩壊しました。正解率はゼロ。「考える」AIも「考えない」AIも、まったく問題を解けなくなったのです。
図: 低・中・高複雑度における思考モデルと非思考モデルの性能比較(論文Figure 5より)
第4章:思考の逆説
さらに奇妙な現象が観察されました。問題が難しくなるにつれて、「考える」AIの思考量(使用トークン数)が減少し始めたのです[4]。
これは人間の行動とは正反対です。私たちは難しい問題ほど、より長く、より深く考えようとします。しかし、AIは難しい問題に直面すると、まるで諦めたかのように思考を短縮してしまうのです。
研究者たちは、思考プロセスの中身も詳しく分析しました:
- 簡単な問題:正解をすぐに見つけても、延々と他の選択肢を探し続ける「考えすぎ(overthinking)」
- 中程度の問題:多くの間違いを経て、最後に正解にたどり着く
- 難しい問題:正解が思考プロセスに一度も現れない
図: 複雑性が増すと、ある時点から精度が急落し、思考トークンも減少する(論文Figure 6より)
第5章:アルゴリズムという救命ロープ
「もしかしたら、解き方を教えてあげれば...」
研究者たちは、ハノイの塔の解法アルゴリズムを明示的にAIに教えてみました[5]。人間なら、アルゴリズムを理解すれば、どんなに複雑な問題でも機械的に解けるはずです。
結果は?
ほとんど改善しませんでした。AIは与えられたアルゴリズムを「理解」することも「実行」することもできなかったのです。
第6章:パズルごとの不可解な差
もう一つの謎がありました。同じAIが、ハノイの塔では100手以上の正しい手順を生成できるのに、川渡りパズルではわずか4手で間違えてしまうのです[6]。
これは、数学が得意な学生が、同じレベルの物理問題では全く解けないようなものです。論理的推論能力が本当にあるなら、このような極端な差は生じないはずです。
エピローグ:真の知能への道
この研究が明らかにしたのは、現在の「思考するAI」が抱える根本的な限界です[7]。
- 一般化の壁:特定の複雑さを超えると、推論能力が完全に崩壊する
- スケーリングの逆説:難しい問題ほど思考を減らすという、直感に反する振る舞い
- 実行能力の欠如:アルゴリズムを与えられても、それを正確に実行できない
これらの発見は、私たちに重要な問いを投げかけます:
AIの「思考」は、本当の思考なのか?それとも、巧妙に作られた思考の幻想なのか?
今後の展望:本当の推論への挑戦
研究者たちは、この限界を乗り越えるためのいくつかの方向性を示唆しています:
- より良い学習方法:単なるパターン認識を超えた、真の論理的推論の学習
- 計算能力の向上:正確なアルゴリズム実行能力の獲得
- メタ認知の実装:自分の思考プロセスを監視し、調整する能力
示唆
AIの進化は目覚ましく、「思考するAI」の登場は確かに大きな一歩です。しかし、この研究が示すように、真の推論能力への道のりはまだ長いのです。
私たちは、AIの能力を過大評価することなく、かといって過小評価することもなく、その真の姿を理解する必要があります。そうすることで初めて、AIをより良く活用し、その限界を補う方法を見つけることができるのです。
次にAIが「考えている」ように見えたとき、この研究を思い出してください。それは本当の思考なのか、それとも思考の幻想なのか。その答えは、AIの未来だけでなく、私たち人間の知性の本質を理解する鍵にもなるかもしれません。
参考文献
- 詳細な実験設定や追加の分析については、原論文をご参照ください。*
-
Shojaee, P., Horton, M., Mirzadeh, I., Bengio, S., Alizadeh, K., & Farajtabar, M. (2025). The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity. Apple ML Research. ↩︎
-
論文のSection 3「Math and Puzzle Environments」では、制御可能な実験環境として4つのパズル(Tower of Hanoi、Checker Jumping、River Crossing、Block World)が詳細に説明されています。 ↩︎
-
論文のSection 4.2.1「Three Complexity Regimes」において、思考モデルと非思考モデルの性能比較から3つの複雑性レジームが特定されています。 ↩︎
-
論文のSection 4.2.2「Reasoning Models Collapse」では、推論努力(思考トークン)が複雑性の増加に伴って逆に減少する現象が報告されています。 ↩︎
-
論文のSection 4.4「Open questions: puzzling behaviors of reasoning models」において、アルゴリズムを明示的に提供しても性能向上が見られなかったことが述べられています。 ↩︎
-
同じくSection 4.4では、パズルの種類によって性能が大きく異なる現象(ハノイの塔での100手以上の成功vs川渡りパズルでの4手での失敗)が報告されています。 ↩︎
-
論文のSection 5「Conclusion」では、研究の主要な発見と、LRMの一般化された推論能力の基本的な限界について総括されています。 ↩︎
Discussion