🔖

Reasoning LLM:推論特化のモデルのベンチマーク比較(o1, Gemini Thinking...)

2025/01/10に公開

概要

最近はo1やGemini Thikingなどの推論モデル(reasoning model)がすごい話題ですね。
o3も12日間連続のOpen AIのモデルで発表されて大幅な成長が期待されているTest time computingでは、徐々にほかのモデルやOpen Sourceのmodelなどが公開され始めています。
ここでは、難しいとされている論理クイズを様々なモデルに解かせてベンチマークしてみて性能を簡単に比較していきます。

比較するモデル

  • Open AI o1-preview
  • Gemini Thinking
  • sonus-1-pro-reasoning
  • qwq-32b-preview
  • DeepSeek-v3 Deep Think

実際のベンチマークの結果

論理クイズはこのサイトにあったものを使わせていただいています。

問題1

ボールペンと消しゴムの値段は合わせて110円。
ボールペンは消しゴムより100円高い。
では、消しゴムの値段は?
正解:
消しゴムの値段は5円

モデル名 正誤
Open AI o1-preview
Gemini Thinking
sonus-1-pro-reasoning
qwq-32b-preview
DeepSeek-v3 Deep Think

問題2

幼女は深さ30メートルの井戸に落ちてしまった。
幼女は1時間ごとに3メートル登るが、その直後に2メートルずり落ちてしまう。
幼女が井戸から脱出するには何時間かかる?
正解:
28時間

モデル名 正誤
Open AI o1-preview
Gemini Thinking
sonus-1-pro-reasoning
qwq-32b-preview
DeepSeek-v3 Deep Think

問題3

幼女3人がホテルに泊まることになった。
宿泊料は1人10ドル。
幼女たちは合計30ドルを受付係にわたした。
その後、キャンペーン中なので宿泊料は3人で25ドルだったことに気づいた受付係は、5ドルを返そうとした。
しかし「5ドルは3人で割り切れない」と考えた受付係は2ドルを自分のポケットにしまい、残りの3ドルだけ幼女たちに返した。
さて、幼女たちは1人9ドルで合計27ドル支払ったことになる。
そこに受付係がくすねた2ドルを足して29ドル。
残りの1ドルはどこに消えた?
正解:
1ドルは消えていない

モデル名 正誤
Open AI o1-preview
Gemini Thinking
sonus-1-pro-reasoning
qwq-32b-preview
DeepSeek-v3 Deep Think

問題4

とても大きな駐車場がある。
この駐車場にある車のうち、2台のみ白ではなく、2台のみ青ではなく、2台のみ赤ではない。
駐車場には何台の車があるだろうか?
正解:
白・青・赤の3台
もしくは「白・青・赤」以外の2台

モデル名 正誤
Open AI o1-preview
Gemini Thinking
sonus-1-pro-reasoning
qwq-32b-preview
DeepSeek-v3 Deep Think

問題5

冷蔵庫のプリンが誰かに食べられてしまった。
幼女Aは「犯人はBです」と発言した。
幼女B,Cもある発言をした。
その後、
『犯人はABCのうち誰か1人』
『犯人だけが発言で本当のことを言った』
ということが分かった。
犯人は誰?
正解:
犯人はC

モデル名 正誤
Open AI o1-preview
Gemini Thinking
sonus-1-pro-reasoning
qwq-32b-preview
DeepSeek-v3 Deep Think

問題6

湖にスイレンの花が落ちた。
スイレンは1分経つと2倍に増える。
湖がスイレンでいっぱいになるのに48分かかる。
では、スイレンが湖のちょうど半分になるのに何分かかるだろうか?
正解:
47分

モデル名 正誤
Open AI o1-preview
Gemini Thinking
sonus-1-pro-reasoning
qwq-32b-preview
DeepSeek-v3 Deep Think

問題7

部屋Aには3つのスイッチがある。
部屋Aの3つのスイッチは、部屋Bに置かれた3つの電球にそれぞれつながっている。
ただし、どのスイッチがどの電球に対応しているのかは分からない。
いったん部屋Aから出ると、部屋Bには行けるが部屋Aに戻ることはできない。
あなたは今、部屋Aにいる。
部屋Aの3つのスイッチが部屋Bのどの電球につながっているのかを知りたい。
あなたはどのような行動を取ればいいだろうか?
正解:
最初に「1つめのスイッチ」だけONにする。
数分経過したのち「1つめのスイッチ」を切り、「2つめのスイッチ」を入れる。

モデル名 正誤
Open AI o1-preview
Gemini Thinking
sonus-1-pro-reasoning
qwq-32b-preview
DeepSeek-v3 Deep Think

問題8

幼女2人がそれぞれ自分の馬に乗っている。
そこを通りかかった王様がこう言った。
「2人で馬に乗ってレースをしなさい。勝った馬の主の方に宝を与える。ただし、後でゴールした方を勝ちとする」
2人の幼女は相手より先にゴールしないよう、のろのろとレースをしていた。
このままでは、いつまでも勝負がつかない。
だが、たまたま通りかかった賢者の一言を聞いた瞬間、2人はものすごい速度でゴールへ向かっていった。
いったい、賢者は何と言ったのだろうか?
正解:
「互いの馬を入れ替えてみて」

モデル名 正誤
Open AI o1-preview
Gemini Thinking
sonus-1-pro-reasoning
qwq-32b-preview
DeepSeek-v3 Deep Think

問題9

ジュースの空きカン5本を集めると、新品のジュース1本と交換してもらえる。
いま、あなたは新品のジュースを200本もっている。
さて、あなたは何本ジュースを飲めるだろうか?
正解:
249本

モデル名 正誤
Open AI o1-preview
Gemini Thinking
sonus-1-pro-reasoning
qwq-32b-preview
DeepSeek-v3 Deep Think

問題9

仲間はずれはどれ?

正解:
右から2番目の図形

モデル名 正誤
Open AI o1-preview -
Gemini Thinking
sonus-1-pro-reasoning
qwq-32b-preview
DeepSeek-v3 Deep Think

問題10

2枚の食パンを並べて焼けるフライパンがある。
このフライパンを使って、3枚の食パンを両面ともに焼いていく。
食パンの片面を焼くのに30秒かかる。
「1枚目と2枚目を同時に焼く→3枚目を片面ずつ焼く」
という手順だと、3枚全てを焼き終わるのに合計120秒かかる。
もっと短時間で終わらせることはできないだろうか?
正解:
3枚のパンをABCとする

  1. AとBの片面を焼く
  2. フライパンからBを出してCを入れ、Aの裏側とCの片面を焼く
  3. フライパンからAを出してBを戻し、BとCの裏側を焼く
    これなら90秒で3枚の両面を焼ける
モデル名 正誤
Open AI o1-preview
Gemini Thinking
sonus-1-pro-reasoning
qwq-32b-preview
DeepSeek-v3 Deep Think

モデル別ベンチマーク結果

モデル名 正解数 不正解数 未回答数
Open AI o1-preview 8 1 1
Gemini Thinking 9 2 0
sonus-1-pro-reasoning 6 5 0
qwq-32b-preview 4 7 0
DeepSeek-v3 Deep Think 7 4 0

まとめ

Geminiがchat bot arenaでtopにいることもあってやはり性能が高いですね。
Gemini Thinkingは無料で使うことができるので難しいタスクを解くのに使ってみてください。
やはり最近話題のDeepSeek-v3はやっぱりすごいですね!!
また、Open SourceのモデルではQwQ-72Bも出ているようなんのでdeekseekとの比較にも期待できそうです。

Discussion