Nexta Tech Blog
🔢

なぜGeminiは数独が解けなかったのか?7つのLLM検証で見えた推論の限界

に公開

はじめに

こんにちは!
ネクスタで開発エンジニアをしている日野岡です。

私の奥さんはパズル好きで、街でパズルを見つけると、解けるまでそこを離れられない性格を持っています。
ただ、本人に聞いてみると、自力で解きたいわけではなく、正解が知りたいだけとのこと(と言いつつ答えは見ようしませんが・・・)。
そのため、私も一緒に考えることがよくあります(早く帰りたいですからね!☺️)

さて先日も、とある博物館で数独に遭遇し、30分かけても解けなかったため、今回はAIに頼ることにしました。

まず、Gemini 2.5 FlashとProで試してみたところ、なんと残念ながら解けず。。
一方、Claude Sonnet 4では解けたものの、内部で数独ソルバー(アルゴリズム)を使用していることが判明しました(Claudeに直接解き方を聞いてみました)。

この経験から、意外とLLMは、数独ソルバーを使用しないと、数独が解けないのではないかという疑問が生まれました。

また、6月にAppleから発表された論文で、現在のLLMが行っているのは「推論」ではなく「高度なパターンマッチング」であるというニュース記事を読んだことも、今回の検証を始めるきっかけとなりました。

本記事では、複数のLLMで数独を解いてもらい、その結果から見えてきた現在のAIの推論能力について考察していきます。

概要

本記事でお伝えする内容は以下の3つです。

  • 各LLMの数独解決能力の比較: Gemini、Claude、GPT、o3シリーズの性能を実際に検証しました
  • 推論指定の有無による結果の違い: 「人間的な推論で解いて」と指定した場合と、そうでない場合の結果を比較しました
  • 現在のLLMの推論能力の現実: 検証結果から見えてきた、現在のAIが持つ推論能力の限界と可能性について考察します

※本記事の内容は、2025年7月22日時点での検証結果に基づく個人的な見解です。LLMの性能は日々進歩しているため、将来的に結果が変わる可能性があります。

検証方法

使用した数独の問題

+-------+-------+-------+
| . . 6 | 3 . . | 1 . 5 |
| . 9 . | 7 . 1 | . . . |
| 5 . 3 | . . 6 | . 4 9 |
+-------+-------+-------+
| . 2 5 | . 8 . | . 6 . |
| 8 . . | . 1 . | . 7 . |
| . . 1 | 2 6 . | 4 5 . |
+-------+-------+-------+
| 2 . . | . 3 . | 6 1 . |
| . 3 8 | . . 2 | . . 4 |
| 6 . . | 1 . 4 | . 8 . |
+-------+-------+-------+

正しい回答

+-------+-------+-------+
| 7 8 6 | 3 4 9 | 1 2 5 |
| 4 9 2 | 7 5 1 | 8 3 6 |
| 5 1 3 | 8 2 6 | 7 4 9 |
+-------+-------+-------+
| 3 2 5 | 4 8 7 | 9 6 1 |
| 8 6 4 | 9 1 5 | 2 7 3 |
| 9 7 1 | 2 6 3 | 4 5 8 |
+-------+-------+-------+
| 2 4 9 | 5 3 8 | 6 1 7 |
| 1 3 8 | 6 7 2 | 5 9 4 |
| 6 5 7 | 1 9 4 | 3 8 2 |
+-------+-------+-------+

検証したLLM

  • Gemini 2.5 Flash
  • Gemini 2.5 Pro
  • Claude Sonnet 4
  • Claude Opus 4
  • GPT 4.1
  • o3
  • o3-Pro

試したプロンプト

人間的推論指定あり

添付した数独の問題を、数独アルゴリズムを使用せずに人間的な推論で完成させてください

人間的推論指定なし

添付した数独の問題を、完成させてください

検証結果

LLM 人間的推論指定あり 人間的推論指定なし
Gemini 2.5 Flash ×(解答放棄) ×(間違った回答)
Gemini 2.5 Pro △(まれに正解) △(まれに正解)
Claude Sonnet 4 ×(制限で停止) ○(正解)
Claude Opus 4 ×(制限で停止) ○(正解)
GPT 4.1 ×(間違った回答) ○(正解)
o3 ○(正解) ○(正解・複数解検出)
o3-Pro ○(正解・複数解指摘) ○(正解)

詳細な結果分析

Gemini 2.5 Flash

  • 人間的推論指定時: 「この数独の問題を人間的な推論のみで完成させることは、私の現在の能力では困難である」と回答を放棄
  • 指定なし: 間違った回答を生成(同じ数字が行・列・ブロックで重複)

Gemini 2.5 Pro

  • 人間的推論指定時: 何度か試行すると正解することがあった
  • 指定なし: 何度か試行すると正解することがあった

Claude Sonnet 4 & Opus 4

  • 人間的推論指定時: ステップバイステップで思考を続けた結果、スレッドの最大文字数制限に達して回答停止
  • 指定なし: 正解を出力(内部で数独ソルバー使用)

GPT 4.1

  • 人間的推論指定時: 「0」を含む間違った回答を生成
  • 指定なし: 正解を出力

o3 & o3-Pro

  • 両パターンとも正解を出力
  • o3は複数の解が存在することも検出
  • o3-Proは複数解の存在を明示的に指摘

考察

検証結果から見えた推論能力の実態

今回の検証から、以下のことが明らかになりました:

  1. 現在のLLMは「純粋な推論」が苦手: 人間的推論を指定すると、多くのLLMが正解できなくなる
  2. ツール使用の重要性: 指定なしの場合、内部で数独ソルバーなどのアルゴリズムを使用して回答を生成している
  3. o3シリーズの例外的性能: o3とo3-Proのみが人間的推論指定でも正解できた(ただし、途中で数独ソルバーを使用した可能性も否定できない)

まとめ

今回の数独検証を通じて、現在のLLMの推論能力の現実が見えてきました。

多くのLLMは、内部で様々なツールやアルゴリズムを活用して結果を出力しています。
純粋な推論を求めると、途中で処理が停止したり、間違った回答を生成したりするケースが多発しました。

これは、パターンマッチングで解決できない複雑な論理的推論が必要な問題において、現在のLLMが直面している課題を示しています。

o3シリーズが例外的に良い結果を示したものの、内部で数独ソルバーを使用している可能性も否定できません。

この結果から、AIの「できること」と「できないこと」を正しく理解し、適切な場面で活用することが重要だと感じています。
今回の検証が、皆さんのAI活用の参考になれば幸いです!

参考文献

Nexta Tech Blog
Nexta Tech Blog

Discussion