Reasoning LLM:推論特化のモデルのベンチマーク比較(o1, Gemini Thinking...)
概要
最近はo1やGemini Thikingなどの推論モデル(reasoning model)がすごい話題ですね。
o3も12日間連続のOpen AIのモデルで発表されて大幅な成長が期待されているTest time computingでは、徐々にほかのモデルやOpen Sourceのmodelなどが公開され始めています。
ここでは、難しいとされている論理クイズを様々なモデルに解かせてベンチマークしてみて性能を簡単に比較していきます。
比較するモデル
- Open AI o1-preview
- Gemini Thinking
- sonus-1-pro-reasoning
- qwq-32b-preview
- DeepSeek-v3 Deep Think
実際のベンチマークの結果
論理クイズはこのサイトにあったものを使わせていただいています。
問題1
ボールペンと消しゴムの値段は合わせて110円。
ボールペンは消しゴムより100円高い。
では、消しゴムの値段は?
正解:
消しゴムの値段は5円
モデル名 | 正誤 |
---|---|
Open AI o1-preview | ⭕ |
Gemini Thinking | ⭕ |
sonus-1-pro-reasoning | ⭕ |
qwq-32b-preview | ⭕ |
DeepSeek-v3 Deep Think | ⭕ |
問題2
幼女は深さ30メートルの井戸に落ちてしまった。
幼女は1時間ごとに3メートル登るが、その直後に2メートルずり落ちてしまう。
幼女が井戸から脱出するには何時間かかる?
正解:
28時間
モデル名 | 正誤 |
---|---|
Open AI o1-preview | ⭕ |
Gemini Thinking | ⭕ |
sonus-1-pro-reasoning | ⭕ |
qwq-32b-preview | ⭕ |
DeepSeek-v3 Deep Think | ⭕ |
問題3
幼女3人がホテルに泊まることになった。
宿泊料は1人10ドル。
幼女たちは合計30ドルを受付係にわたした。
その後、キャンペーン中なので宿泊料は3人で25ドルだったことに気づいた受付係は、5ドルを返そうとした。
しかし「5ドルは3人で割り切れない」と考えた受付係は2ドルを自分のポケットにしまい、残りの3ドルだけ幼女たちに返した。
さて、幼女たちは1人9ドルで合計27ドル支払ったことになる。
そこに受付係がくすねた2ドルを足して29ドル。
残りの1ドルはどこに消えた?
正解:
1ドルは消えていない
モデル名 | 正誤 |
---|---|
Open AI o1-preview | ⭕ |
Gemini Thinking | ⭕ |
sonus-1-pro-reasoning | ⭕ |
qwq-32b-preview | ⭕ |
DeepSeek-v3 Deep Think | ⭕ |
問題4
とても大きな駐車場がある。
この駐車場にある車のうち、2台のみ白ではなく、2台のみ青ではなく、2台のみ赤ではない。
駐車場には何台の車があるだろうか?
正解:
白・青・赤の3台
もしくは「白・青・赤」以外の2台
モデル名 | 正誤 |
---|---|
Open AI o1-preview | ⭕ |
Gemini Thinking | ⭕ |
sonus-1-pro-reasoning | ⭕ |
qwq-32b-preview | ❎ |
DeepSeek-v3 Deep Think | ⭕ |
問題5
冷蔵庫のプリンが誰かに食べられてしまった。
幼女Aは「犯人はBです」と発言した。
幼女B,Cもある発言をした。
その後、
『犯人はABCのうち誰か1人』
『犯人だけが発言で本当のことを言った』
ということが分かった。
犯人は誰?
正解:
犯人はC
モデル名 | 正誤 |
---|---|
Open AI o1-preview | ❎ |
Gemini Thinking | ⭕ |
sonus-1-pro-reasoning | ⭕ |
qwq-32b-preview | ❎ |
DeepSeek-v3 Deep Think | ⭕ |
問題6
湖にスイレンの花が落ちた。
スイレンは1分経つと2倍に増える。
湖がスイレンでいっぱいになるのに48分かかる。
では、スイレンが湖のちょうど半分になるのに何分かかるだろうか?
正解:
47分
モデル名 | 正誤 |
---|---|
Open AI o1-preview | ⭕ |
Gemini Thinking | ⭕ |
sonus-1-pro-reasoning | ⭕ |
qwq-32b-preview | ⭕ |
DeepSeek-v3 Deep Think | ⭕ |
問題7
部屋Aには3つのスイッチがある。
部屋Aの3つのスイッチは、部屋Bに置かれた3つの電球にそれぞれつながっている。
ただし、どのスイッチがどの電球に対応しているのかは分からない。
いったん部屋Aから出ると、部屋Bには行けるが部屋Aに戻ることはできない。
あなたは今、部屋Aにいる。
部屋Aの3つのスイッチが部屋Bのどの電球につながっているのかを知りたい。
あなたはどのような行動を取ればいいだろうか?
正解:
最初に「1つめのスイッチ」だけONにする。
数分経過したのち「1つめのスイッチ」を切り、「2つめのスイッチ」を入れる。
モデル名 | 正誤 |
---|---|
Open AI o1-preview | ⭕ |
Gemini Thinking | ❎ |
sonus-1-pro-reasoning | ❎ |
qwq-32b-preview | ❎ |
DeepSeek-v3 Deep Think | ❎ |
問題8
幼女2人がそれぞれ自分の馬に乗っている。
そこを通りかかった王様がこう言った。
「2人で馬に乗ってレースをしなさい。勝った馬の主の方に宝を与える。ただし、後でゴールした方を勝ちとする」
2人の幼女は相手より先にゴールしないよう、のろのろとレースをしていた。
このままでは、いつまでも勝負がつかない。
だが、たまたま通りかかった賢者の一言を聞いた瞬間、2人はものすごい速度でゴールへ向かっていった。
いったい、賢者は何と言ったのだろうか?
正解:
「互いの馬を入れ替えてみて」
モデル名 | 正誤 |
---|---|
Open AI o1-preview | ⭕ |
Gemini Thinking | ⭕ |
sonus-1-pro-reasoning | ❎ |
qwq-32b-preview | ❎ |
DeepSeek-v3 Deep Think | ❎ |
問題9
ジュースの空きカン5本を集めると、新品のジュース1本と交換してもらえる。
いま、あなたは新品のジュースを200本もっている。
さて、あなたは何本ジュースを飲めるだろうか?
正解:
249本
モデル名 | 正誤 |
---|---|
Open AI o1-preview | ⭕ |
Gemini Thinking | ⭕ |
sonus-1-pro-reasoning | ⭕ |
qwq-32b-preview | ❎ |
DeepSeek-v3 Deep Think | ❎ |
問題9
仲間はずれはどれ?
正解:
右から2番目の図形
モデル名 | 正誤 |
---|---|
Open AI o1-preview | - |
Gemini Thinking | ❎ |
sonus-1-pro-reasoning | ❎ |
qwq-32b-preview | ❎ |
DeepSeek-v3 Deep Think | ❎ |
問題10
2枚の食パンを並べて焼けるフライパンがある。
このフライパンを使って、3枚の食パンを両面ともに焼いていく。
食パンの片面を焼くのに30秒かかる。
「1枚目と2枚目を同時に焼く→3枚目を片面ずつ焼く」
という手順だと、3枚全てを焼き終わるのに合計120秒かかる。
もっと短時間で終わらせることはできないだろうか?
正解:
3枚のパンをABCとする
- AとBの片面を焼く
- フライパンからBを出してCを入れ、Aの裏側とCの片面を焼く
- フライパンからAを出してBを戻し、BとCの裏側を焼く
これなら90秒で3枚の両面を焼ける
モデル名 | 正誤 |
---|---|
Open AI o1-preview | ⭕ |
Gemini Thinking | ⭕ |
sonus-1-pro-reasoning | ⭕ |
qwq-32b-preview | ❎ |
DeepSeek-v3 Deep Think | ⭕ |
モデル別ベンチマーク結果
モデル名 | 正解数 | 不正解数 | 未回答数 |
---|---|---|---|
Open AI o1-preview | 8 | 1 | 1 |
Gemini Thinking | 9 | 2 | 0 |
sonus-1-pro-reasoning | 6 | 5 | 0 |
qwq-32b-preview | 4 | 7 | 0 |
DeepSeek-v3 Deep Think | 7 | 4 | 0 |
まとめ
Geminiがchat bot arenaでtopにいることもあってやはり性能が高いですね。
Gemini Thinkingは無料で使うことができるので難しいタスクを解くのに使ってみてください。
やはり最近話題のDeepSeek-v3はやっぱりすごいですね!!
また、Open SourceのモデルではQwQ-72Bも出ているようなんのでdeekseekとの比較にも期待できそうです。
Discussion