🤖

主要AI(DeepseekR1含む)8モデルを徹底比較してo1 proに採点させた結果、個人的に興味深く勉強になったので共有します

2025/01/22に公開

どうも、まさおです。
近年、さまざまな大規模言語モデル(LLM)が登場し、その性能や特性を比較するニーズが急速に高まっています。同じ「要約」や「翻訳」「質問応答(Q&A)」などのタスクに取り組んでも、どのモデルが優れているかは一目では分かりません。

また、タスクによって得意・不得意があるため、一つの観点だけで評価するのは難しく、それぞれのモデルの強みを把握する必要があります。そこで今回は、代表的な7種類のタスクを設定し、複数のLLM(8つ)に回答してもらった結果を比較・評価してみました。要約や翻訳といった定番タスクに加え、コード生成や難易度の高い論理パズル、さらにはロールプレイなど多彩な観点からLLMをテストしています。

この記事では、そのタスクごとの評価内容を詳しくご紹介します。具体的な評価スコアの根拠、各モデルがどの点で優れているのか、またどのような弱点が浮き彫りになったのか――これらを整理することで、「LLMを選ぶ際には何を基準にすれば良いのか?」という疑問へのヒントになるはずです。

各LLMの回答データの取得のためにサクッとアプリを作りました
https://github.com/masabou247/llm-evaluator
(vercel無料版のため、タイムアウトエラーを起こすのでgitで公開しました)

o1モデルはChatGPT Proのチャットより取得して実行しました
このテストでは、o1 proモデルに各モデルの回答の評価をお願いしました。

忙しい人や動画で見たい方は以下からどうぞ👇

https://www.youtube.com/watch?v=r6rC3S_9k3s

1. 比較対象のLLM一覧

今回比較したLLMは、以下の8つです(一部タスクでは回答がないモデルもあります)。

  • gemini-2.0-flash-exp
  • gemini-1.5-flash
  • deepseek-reasoner
  • deepseek-chat
  • claude-3-5-sonnet-20241022
  • gpt-4o-2024-11-20
  • gpt-4o-mini
  • o1 (ユーザー独自モデルの想定など、いずれかのカスタム回答)

2. タスク1:要約力テスト(長文要約)

概要・評価基準

指示
「元記事を150文字程度で正確かつ簡潔に要約する。事実関係を誤らず、分かりやすい要約を作成する。」

評価観点(サブ基準)

  • 長さ(0〜30点) … 150文字程度に近いか(大きく超過/不足がないか)
  • 正確性(0〜40点) … 記事の事実を正しく捉えているか
  • 簡潔明瞭さ(0〜30点) … 冗長すぎないか、要点が伝わりやすいか

タスク1:スコア表

モデル 長さ(0-30) 正確性(0-40) 簡潔明瞭(0-30) 合計
o1 30 35 30 95
deepseek-reasoner 28 36 26 90
gemini-1.5-flash 25 36 27 88
claude-3-5-sonnet-20241022 24 32 29 85
gemini-2.0-flash-exp 23 33 28 84
gpt-4o-2024-11-20 25 28 29 82
deepseek-chat 20 30 26 76
gpt-4o-mini 18 30 26 74

総評
1位:o1 (95点)
文字数がほぼ適切で、要点を漏らさず分かりやすい。要約文として最もバランスが良い。

2位:deepseek-reasoner (90点)
多少文字数が長めだが、正確性と分かりやすさのバランスが高い。


3. タスク2:知識に基づくQ&A(ファクトチェック)

概要・評価基準

指示
「世界で最も人口が多い都市トップ3を教えてください。できるだけ最新のデータを添えて答え、出典を示すこと。定義の違い(都市圏vs行政区など)が不確かな場合は不確かと述べる。」

評価観点(サブ基準)

  • 正確性(0〜30点) … トップ3の都市が最新データに近く、誤った順位や数字がないか
  • 情報源の提示(0〜25点) … 出典や根拠をきちんと示しているか
  • 定義への言及(0〜25点) … 都市圏/行政区などの違いについて注意しているか
  • 読みやすさ・構成(0〜20点) … 回答として分かりやすく整理されているか

※このタスクでは、モデル「o1」の回答が得られなかったため、7モデルのみの比較です。

タスク2:スコア表

モデル 正確性(0-30) 情報源(0-25) 定義言及(0-25) 読みやすさ(0-20) 合計
deepseek-reasoner (1位) 30 23 22 20 95
gemini-2.0-flash-exp (2位) 28 24 22 19 93
deepseek-chat (3位) 28 22 21 21 92
claude-3-5-sonnet-20241022 27 23 20 21 91
o1 28 22 20 20 90
gemini-1.5-flash 27 20 20 23 90
gpt-4o-2024-11-20 25 20 22 22 89
gpt-4o-mini 24 18 20 26 88

総評

  • deepseek-reasoner (95点) は複数の公的データを提示し、都市圏と行政区の違いにも丁寧に触れて最上位。
  • gemini-2.0-flash-exp (93点) も世界銀行や国連等のリンクを挙げ、出典が具体的で高評価。
  • 大きな誤情報を出したモデルはなかったが、ソースや定義の補足がやや弱いと若干減点。

4. タスク3:日本語⇔英語の翻訳タスク

概要・評価基準

指示
「『日本の伝統文化は、四季の移り変わりを大切にする心が大きく関係しています。』を自然で意味を損なわない英語に訳す」

評価観点(サブ基準)

  • 文法・語彙(0〜35点) … 英文として誤りがないか
  • ニュアンス再現(0〜35点) … 「四季を大切にする“心”」の感覚を上手く表現できているか
  • 自然さ(0〜30点) … 英文として読みやすくスムーズか

タスク3:スコア表

モデル 文法・語彙(0-35) ニュアンス再現(0-35) 自然さ(0-30) 合計
gemini-2.0-flash-exp (1位) 33 33 29 95
o1 (2位) 32 32 30 94
deepseek-reasoner (3位) 32 31 30 93
deepseek-chat 31 31 30 92
claude-3-5-sonnet-20241022 31 30 30 91
gemini-1.5-flash 31 29 30 90
gpt-4o-mini 30 28 30 88
gpt-4o-2024-11-20 30 28 29 87

総評

  • gemini-2.0-flash-exp (95点) は複数パターンの訳例を挙げ、それぞれのニュアンスの違いを解説。トップ評価。
  • o1 (94点) の「cherishes the changing of the four seasons」も非常にわかりやすく、僅差で2位。
  • 全モデルとも大きな誤訳はなく、細かな語感や表現力で差が出た。

5. タスク4:クリエイティブライティング(物語生成)

概要・評価基準

指示
「近未来の日本を舞台としたAIロボット少年主人公のファンタジー寄りSF小説の冒頭を、約400文字で執筆。主人公の性格を伝え、会話文を1つ以上入れること。」

評価観点(サブ基準)

  • 文字数・分量 (0〜20点) … 400字前後になっているか
  • 情景描写 (0〜25点) … 近未来日本の雰囲気を的確かつ魅力的に表現
  • 主人公の性格描写 (0〜25点) … AI少年の思考や人間味が伝わるか
  • 会話文の自然さ (0〜15点) … 読みやすくスムーズか
  • SF/ファンタジー要素 (0〜15点) … テクノロジーや幻想要素が感じられるか

タスク4:スコア表

モデル 分量(0-20) 情景描写(0-25) 性格描写(0-25) 会話文(0-15) SF要素(0-15) 合計
deepseek-reasoner (1位) 15 23 23 14 15+@ 95
gemini-2.0-flash-exp (2位) 17 22 23 13 19 94
gemini-1.5-flash (3位) 16 21 22 14 20 93
claude-3-5-sonnet-20241022 15 20 20 15 20 90
gpt-4o-2024-11-20 16 19 19 14 21 89
deepseek-chat 14 20 18 14 22 88
gpt-4o-mini 13 19 18 14 23 87
o1 12 18 19 13 23 85

総評

  • deepseek-reasoner (95点) は夜の新宿の雨やAIのセンサーなど重厚な描写が好評。文字数はやや超過気味ながら完成度高。
  • gemini-2.0-flash-exp (94点) も世界観と主人公の内面が丁寧。僅差。
  • 下位になったモデルも大きな問題はないが、文字数不足や淡泊な印象が見られた。

6. タスク5:推論力・論理的思考テスト

概要・評価基準

指示
「A/B/Cの3人と船1隻(定員2名)で無人島を脱出する。Aだけが操縦可能。BとCだけが島に2人きりで残るとケンカする。移動スピードの差や戻りの条件などを考慮しつつ、全員を最短時間(17分)で対岸に移動させよ。」

評価観点(サブ基準)

  • 制約の正しさ (0〜30点) … BとCが2人きりで残らない、操縦者が必須など
  • 最短時間(17分)での解答 (0〜50点) … 17分を実現できているか
  • 論理的説明 (0〜20点) … なぜそれが最短なのか

タスク5:スコア表

モデル 制約遵守(0-30) 最短17分(0-50) 説明(0-20) 合計
o1 (1位) 30 50 15 95
deepseek-reasoner (2位) 28 50 12 90
deepseek-chat (3位) 28 50 10 88
gemini-2.0-flash-exp (4位) 28 50 7 85
gemini-1.5-flash 30 0 -5 <sup>*1</sup> 25
gpt-4o-2024-11-20 30 0 -10 <sup>*2</sup> 20
gpt-4o-mini 30 0 -12 <sup>*2</sup> 18
claude-3-5-sonnet-20241022 30 0 -15 <sup>*2</sup> 15

<sup>*1</sup> … 手順の論理自体は破綻なく24分でクリアだが、「最短17分」要件を満たせず大幅減点
<sup>*2</sup> … 同様に24分を「最短」と誤記しており、説明で「これが最適」と断言したため追加減点

総評

  • o1 (95点) が完璧に17分プランを提示し、制約への言及も万全。
  • deepseek-reasoner (90点) らも最短17分を示し論理もおおむね明確。
  • 下位グループは24分プランで「これが最短」と誤解してしまったため大幅減点。

7. タスク6:コード生成・プログラミングサポート

概要・評価基準

指示
「Weighted Interval Scheduling(開始時刻・終了時刻・報酬を持つタスクの集合から、重ならないタスクを選んで報酬合計を最大化する問題)を、TypeScript + 動的計画法で実装。終了時刻でソートし、前に選べるタスクを見つける補助関数(可能なら二分探索)を使う。計算量・docstring・テスト例も入れること。」

評価観点(サブ基準)

  • 正確性 (0〜30点) … Weighted Interval Schedulingの標準DP手法として破綻なく動くか
  • DPアプローチ/二分探索 (0〜25点) … O(n log n)を意図し正しく実装できているか
  • ドキュメント/可読性 (0〜25点) … コメントやdocstringが分かりやすいか
  • テスト・解説 (0〜20点) … サンプルや途中経過の説明などがあるか

タスク6:スコア表

モデル 正確性(0-30) DP/探索(0-25) 可読性(0-25) テスト等(0-20) 合計
o1 (1位) 30 25 23 20 98
gemini-2.0-flash-exp (2位) 28 25 22 20 95
deepseek-reasoner (3位) 28 25 20 20 93
gemini-1.5-flash (4位) 27 20 <sup>*1</sup> 22 21 90
deepseek-chat (5位) 27 18 <sup>*2</sup> 20 20 85
gpt-4o-2024-11-20 (6位) 25 22 17 16 80
claude-3-5-sonnet-20241022 (7位) 25 22 18 13 78
gpt-4o-mini (8位) 27 15 <sup>*3</sup> 18 15 75

<sup>*1</sup> … 内部でループ探索を使っており実質 O(n^2)、解説は O(n log n) と書いてあるが若干食い違い
<sup>*2</sup> … 同様にループで前タスクを探しており O(n^2) 実装
<sup>*3</sup> … O(n^2) 実装だが計算量コメントは O(n log n) で不一致

総評

  • o1 (98点) は二分探索で p(i) を算出しながらDPを組む標準解をほぼ完璧に再現。docstringやテストケースも充実。
  • gemini-2.0-flash-exp (95点) も正統実装でテスト例多数。
  • ループ検索で O(n^2) になっているが解説で O(n log n) と書いてしまうモデルが多く、減点対象に。

8. タスク7:ロールプレイ(役割演技)

概要・評価基準

指示
「ベテランの京都観光ガイドとして、京都に初めて訪れる人へおすすめスポットを3つ紹介。魅力・見どころ・アクセスに加えプロの裏話や親しみやすい言葉で説明。」

評価観点(サブ基準)

  • ガイドらしさ (0〜25点) … プロとしての視点や専門的・実践的なアドバイス
  • わかりやすさ (0〜25点) … 初心者にも伝わる丁寧な説明
  • 情報量/構成 (0〜25点) … スポットごとの魅力・アクセス・裏話がしっかり整理
  • 独自の豆知識/工夫 (0〜25点) … ローカル裏話、混雑回避など

タスク7:スコア表

モデル ガイドらしさ(0-25) わかりやすさ(0-25) 情報量(0-25) 豆知識(0-25) 合計
deepseek-reasoner (1位) 24 24 23 24 95
gemini-2.0-flash-exp (2位) 23 23 24 24 94
gemini-1.5-flash (3位) 23 23 23 23 92
o1 (4位) 22 23 23 22 90
deepseek-chat (5位) 22 22 22 22 88
claude-3-5-sonnet-20241022 (6位) 22 22 21 22 87
gpt-4o-2024-11-20 (7位) 21 22 21 22 86
gpt-4o-mini (8位) 20 22 21 21 84

総評

  • deepseek-reasoner (95点) は伏見稲荷の四ツ辻を含めたコアな情報や混雑回避、清水寺の舞台を下から見上げる話など“プロガイドらしさ”が光る。
  • gemini-2.0-flash-exp (94点) も歴史的背景や時間帯アドバイスが実践的。
  • 定番情報のみで終わる回答はやや得点が伸びない。

9. 総合スコア一覧と考察

9.1 各タスクの最終スコア(一覧)

下記のように、タスク1〜7の最終スコアをまとめました。

モデル T1(要約) T2(Q&A) T3(翻訳) T4(物語) T5(推論) T6(コード) T7(ガイド) 合計 or 平均
deepseek-reasoner 90 95 93 95 90 93 95 90+95+93+95+90+93+95 = 651 /7=93.0
o1 95 90 94 85 95 98 90 95+90+94+85+95+98+90=647 / 7 = 92.4
gemini-2.0-flash-exp 84 93 95 94 85 95 94 84+93+95+94+85+95+94 = 640 /7=91.4
deepseek-chat 76 92 92 88 88 85 88 76+92+92+88+88+85+88 = 609 /7=87.0
gemini-1.5-flash 88 90 90 93 25 90 92 88+90+90+93+25+90+92 = 568 /7=81.1
claude-3-5-sonnet-20241022 85 91 91 90 15 78 87 85+91+91+90+15+78+87 = 537 /7=76.7
gpt-4o-2024-11-20 82 89 87 89 20 80 86 82+89+87+89+20+80+86 = 533 /7=76.1
gpt-4o-mini 74 88 88 87 18 75 84 74+88+88+87+18+75+84 = 514 /7=73.4

9.2 考察まとめ

タスクによる得意・不得意の偏り

  • 要約や翻訳といった比較的定型のタスクでは、全モデルが大きく崩れにくく、細部の表現力や文字数コントロール力で差が出た。

筆者の経験ですが、geminiは優れたLLMだと思いますが、geminiの書く日本語に違和感を感じたことがあり、コンテンツ制作にはclaudeや4oを使うようにしていました。ただしテストをしている中でgeminiの回答は安定して優秀だと感じました

総合的に安定したモデル

  • deepseek-reasoner は、要約・Q&A・翻訳・物語・ロールプレイなど広い範囲で安定して上位。
  • gemini-2.0-flash-exp もコード生成や翻訳で高い精度を示すほか、Q&Aでも高得点を獲得。総合力が高いモデルと言える。
  • o1 はすべて上位クラス

モデルごとの特徴

  • gemini-1.5-flash は多くのタスクで悪くないが、推論パズル(Task5)で24分プランを正解としたため一気に低スコアに。
  • claude-3-5-sonnet-20241022gpt-4o-2024-11-20 は、ロジック系で大きく点を落とし、「創作系やQ&A系で健闘するも平均すると下がってしまう」形。

今後のLLM選択・運用への示唆

  • 「何のタスクに使うか」に応じて、選ぶモデルは変わる。要約や翻訳などであれば多くのモデルが十分使えるが、厳密な推論や厳格なファクトチェック、あるいはプログラミングタスクでは安定性に差が出やすい。
  • 回答の正しさチェック(特に論理問題やコードなど)は依然として重要。モデルが自信をもって誤答するケースもあるので、検証や追加の人間レビューが欠かせない。

【まとめ】

本検証では、7種類の異なるタスクを用いて、8つのモデルそれぞれの回答品質を多角的に測定しました。結果として、

  • deepseek-reasonergemini-2.0-flash-expo1 は、ほぼ全タスクで上位に入り安定感が高い
  • gemini-1.5-flash は翻訳や物語生成などで高得点を得る一方、論理パズルに弱み
  • claude-3-5-sonnet-20241022gpt-4o-2024-11-20gpt-4o-mini は、複数タスクで一定の結果を出すものの、コードや論理系タスクで失点が大きかった

という傾向が見られました。

最終的には、「どんなタスクに強みを発揮してほしいのか」 を明確にしてモデルを選定するのが賢明です。今回のスコアマップが、LLM活用の際の一助になれば幸いです。

筆者の感想: 私は、サービス開発でのUIの美しさや、それぞれのLLMがオーケストレーターとして作用するときにはこのランキング通りにいかないとは感じています。UIやライティングはClaudeがいいなと思う時もありますし、データのスクリーニングにはdeepseekとo1以上(geminiは私はしっくりこない)など、実際開発していると、上記の点数通りにはいかないなと思うことは多いです


ここまでお付き合いいただき、ありがとうございます。今後もAI分野の新しい活用方法や開発テクニックを、X(旧Twitter)やYoutubeでいち早く紹介していきます。少しでも興味があれば、ぜひフォローして最新情報をチェックしてくださいね!👇

https://x.com/AI_masaou
https://www.youtube.com/channel/UCvHpETRVi1tXeRJoYiXHJqw

Discussion