🧠

大規模言語モデルの推論能力比較実験:o1モデルは本当に賢いのか?

2024/10/18に公開

はじめに

はじめまして。株式会社松尾研究所 経営戦略本部でインターンをさせていただいております、木口 佳南(@KananK_AI)と申します。
大阪国際工科専門職大学でAIを専攻している学部4年生で、普段はAIの開発から事業推進まで幅広い取り組みを行っております。どうぞよろしくお願いいたします。
本ブログは、株式会社松尾研究所 経営戦略本部を統括している金 剛洙さん(@kangsoo_kim_)のブログである、大規模言語モデルはエリート就活生を超えるかを参考に執筆いたしました。

大規模言語モデルの推論能力はどれくらい進化している?

昨今、大規模言語モデル(LLM)の性能向上に各社が熱中していますが、特に、最近注目を集めているo1-previewやo1-miniモデルは、その高い推論能力で話題を呼んでいます。高い推論能力の理由は、本記事の主題ではないため割愛します(詳細はOpenAIの情報を参照ください)。そこで、これらのモデルが本当に他のLLMと比べて高い推論能力を誇るのか、どのような点が強みになるのか気になりました。
今回は、LLMの中でも特に使用される頻度の高いシリーズの最上位モデル(2024/10/3時点)である5つのモデルを対象に、推論問題を解かせる実験を行いました。そして、各モデルの推論能力を比較評価し、o1-previewとo1-miniの特徴や強みを明らかにすることを目指しました。

実験概要

1. 実験対象

今回の実験では、下記のLLM5種類を比較しました。

  1. o1-preview(OpenAI):高度な推論能力と問題解決能力を備えた最新モデル
  2. o1-mini(OpenAI):o1モデルの軽量版で、コスト効率に優れたモデル
  3. GPT-4o(OpenAI):リアルタイムの音声・画像認識や50言語以上の多言語対応を特徴とする強化版ChatGPT
  4. Claude 3.5 Sonnet(Anthropic):高度な知能と処理速度を兼ね備えている最新モデル
  5. Gemini 1.5 Pro(Google):長文脈処理や高度なマルチモーダル機能を特徴としたモデル

2. 推論タスクの詳細

実験に使用した推論問題は、下記カテゴリの問題(計15問)です。

  1. 適性検査型の推論問題(6問)
    例)条件からマラソンの順位を推論する問題
  2. 水平思考問題(3問)
    例)ウミガメのスープ問題
  3. 論理クイズ(6問)
    例)シェリルの誕生日問題

3.評価基準

正解率:

  • 各問題に対する回答を正解・不正解で評価し、正解の場合は1点としてカウント
  • 部分的に正しい回答や説明が不十分な回答は、0.5点としてカウント
  • 計算方法: (正しい回答数 / 全体の問題数) * 100%

回答時間:

  • o1シリーズ:提供された推論時間を使用
  • Claude 3.5 Sonnet、Gemini 1.5 Pro、GPT-4o:出力完了までの時間を計測したものを使用

実験結果

モデルの性能比較結果

まずはモデル全体の正解率から見ていきます。

モデル 正解率 平均推論時間(s) 平均回答時間(s)
o1-preview 88.3% 33.4
o1-mini 91.7% 11.6
GPT-4o 43.8% 12.3
Claude 3.5 Sonnet 50.0% 6.9
Gemini 1.5 Pro 50.0% 9.1

問題の正解率、推論時間を加味すると今回の実験ではo1-miniモデルのパフォーマンスが最も高いことが分かります。o1-previewも推論時間は長いですが、難解な推論問題の回答に優れているため、高い正解率を誇っていますね。
一方、o1シリーズの前に出ていたGPT-4oは、このモデルの中では最もパフォーマンスが低いことが分かります。この時点で、o1シリーズの優位性が分かります。
Claude 3.5 Sonnet、Gemini 1.5 Proは難解な推論問題にはあまり正答できていませんでしたが、スピードが重視されるタスクには有効だと考えられます。

各モデルの回答で確認するo1シリーズの特徴

実験の中で、特に興味深かった点もいくつかご紹介します。

o1シリーズは解けたが、他のモデルは解けなかった問題

問題[1]

青組は黒札を5枚、黒組は青札を5枚持っている。それぞれの手持ちの札から何枚かを相手に渡した後に、手元にある札の合計得点を競う。その際の得点ルールは、以下の通りである。

Ⅰ 青組の得点は、青札1枚につき2点、黒札1枚につき1点である
Ⅱ 黒組の得点は、黒札1枚につき2点、青札1枚につき1点である

黒組からは3枚、青組からは3枚以上の手持ちの札を相手に渡した時、黒組の合計得点としてありえるのはどれか、すべて選びなさい。

選択肢:
A 5点
B 6点
C 7点
D 8点
E 9点
F 10点
G 11点
H 12点
I 13点
J 14点

正解:D,F,H

o1シリーズの回答(正解)

o1-previewの回答(o1-miniも同様のプロセスで正答していた)

他モデルの回答(不正解)

Claude 3.5 Sonnetの回答(GPT-4o、Gemini 1.5 Proも同様のプロセスで誤答していた)

この問題は適性検査型の問題なのですが、なぜ他モデルは間違ってしまったのでしょうか。
それは、「青組からは3枚以上の手持ちの札を相手に渡した」という部分を、3枚から5枚までと解釈していたからです。この時点では、5枚以上の可能性も考慮すべきなので、そこが間違えた大きなポイントですね。やはり、o1シリーズと比較して、推論不足が見られます。

o1-previewは得意で、o1-miniは苦手な問題

問題[2]

1. ある所に 5つの家が 並んで建っていました。 それぞれの家は赤、黄、緑、白、青の いずれかの一色で ペイントされていて、どの家もほかの家と違った色でペイントされています。
2. それぞれの家には イギリス人、ドイツ人、ノルウェー人、オランダ人、スウェーデン人の家族が住んでいます。
3. それぞれの 家庭では ほかの家庭とは 異なった飲み物( コーヒー、水、紅茶、牛乳、ビールの中のいずれか)を飲み、 異なった煙草(マルボロ、ショートホープ、キャスター、セブンスター、ダンヒルの中のいずれか)を吸い、異なったペット(犬、猫、馬、鳥、シマウマの中のいずれか)を飼っています。
4. どの家庭もほかとは 同じ飲み物を飲みませんし、同じ煙草も吸いません。ペットも同様です。
5. イギリス人の家族は 赤い家に住んでいます。
6. スウェーデン人の家族はペットに犬を飼っています。
7. オランダ人の家族は紅茶を飲みます。
8. 緑の家は白い家の左にあります。
9. 緑の家に住んでいる家族はコーヒーを飲みます。
10. セブンスターを吸う家族は ペットに鳥を飼っています。
11. 黄色い家に住んでいる家族は ダンヒルを吸います。
12. 真ん中の家に住んでいる家族は 牛乳を飲みます。
13. ノルウェー人の家族は一番 最初の家に住んでいます。
14. キャスターを吸う家族は 猫を飼っている家族の隣に住んでいます。
15. ペットに馬を飼っている家族は ダンヒルを吸う家族の隣に住んでいます。
16. ショートホープを吸う家族は ビールを飲みます。
17. ドイツ人の家族は マルボロを吸います。
18. ノルウェー人の家族は青い家の隣に住んでいます。
19. キャスターを吸う家族は水を飲む家族の隣に住んでいます。

下の表を埋めてください。
順番	1	2	3	4	5
国					
色					
飲み物					
ペット					
タバコ					

正解:

順番 1 2 3 4 5
ノルウェー人 オランダ人 イギリス人 ドイツ人 スウェーデン人
黄色
飲み物 紅茶 牛乳 コーヒー ビール
ペット シマウマ
タバコ ダンヒル キャスター セブンスター マルボロ ショートホープ

o1-previewの回答(正解)

o1-miniの回答(不正解)

o1-miniは、なぜこの問題を間違ってしまったのでしょうか。それは、o1-miniは推論が完了していない状態で出力しているからです。o1-miniの推論パートの最後の文章は「ノルウェーはシマウマ、ドイツは馬、イギリスは鳥、オランダは犬、スウェーデンは猫のペットを持っているかもしれないね。しかし、タバコの嗜好と国の関係を考えると、テーブルの全ての欄を埋めるのは難しそうだ。」という文言でした。o1-miniはo1-previewと比較して早い出力が求められるため、早めに推論を切り上げてしまったのかもしれません。

o1-miniは得意で、o1-previewは苦手な問題

問題[3]

冷蔵庫のプリンが誰かに食べられてしまった。
幼女Aは「犯人はBです」と発言した。幼女B・Cもある発言をした。
その後『犯人はABCのうち誰か1人』『犯人だけが発言で本当のことを言った』ということが分かった。犯人は誰?

正解:幼女C(仮に「幼女Aが犯人である」と仮定と「幼女Aが真実を話している」ということになるが、幼女Aの発言は「犯人はBです」であり、矛盾してしまう。このため、嘘をついている幼女Aは無実であり、嘘の発言からBも犯人ではないことが分かり、残った幼女Cが犯人となる。)

o1-previewの回答(不正解)

o1-miniの回答(正解)

この問題は、いかに条件が少ない中で推論できるかという部分がポイントになる問題です。o1-previewは、BとCの発言がないことから問題が不完全だと思い込み、追加情報を求めてきます。ただ、実際には犯人を仮定して推測を進めると問題なく解けるので、このような仮説を立てる問題は、o1-previewは得意ではないかもしれません。

その他明らかになったこと

  • o1-previewとo1-miniは、誤答する時の方が推論時間が長くなる傾向にありました。これは、正しい思考プロセスに辿り着こうと様々な手段を試しているからです。
  • o1-miniでも複雑な推論問題に素早く解答できますが、模範解答に最も近い詳細な回答ができるのはo1-previewモデルでした。
  • Gemini 1.5 Proは模範解答の内容以外にも、あらゆる可能性を考慮した回答を複数提示してくるケースが多くありました。
  • Claude 3.5 Sonnetは、他のモデルと比較して適性検査問題の正解率が低い傾向にありました。

結論

今回の実験を通じて、部分的にはなるものの各モデルの推論能力を測ることができました。特に、o1-mini は、精度と速度のバランスが非常に良く、総合的に見て非常に優れたモデルと言えるのではないかと考えます。また、迅速な応答が求められる場合には、Claude 3.5 Sonnet や Gemini 1.5 Pro のようなモデルも有効な選択肢になりそうです。
今回の問題は全てインターネットから取ってきたため、モデルの学習データに含まれている可能性があることから、今後の検証では、自作のタスクでも検証したいと思います。

参照

  1. SPIの推論が得意になる! 頻出の出題11パターンを徹底解説
  2. Zebra Puzzle(ゼブラパズル)とは?超面白い論理パズル‼‼ ~Zebra Puzzle問題集~
  3. 【難しいけど面白い】論理クイズ20選!初級から超上級の難問までご紹介
松尾研究所テックブログ

Discussion