🤖

主要AI（DeepseekR1含む）8モデルを徹底比較してo1 proに採点させた結果、個人的に興味深く勉強になったので共有します

2025/01/22に公開

どうも、まさおです。

近年、さまざまな大規模言語モデル（LLM）が登場し、その性能や特性を比較するニーズが急速に高まっています。同じ「要約」や「翻訳」「質問応答（Q&A）」などのタスクに取り組んでも、どのモデルが優れているかは一目では分かりません。
また、タスクによって得意・不得意があるため、一つの観点だけで評価するのは難しく、それぞれのモデルの強みを把握する必要があります。そこで今回は、代表的な7種類のタスクを設定し、複数のLLM（8つ）に回答してもらった結果を比較・評価してみました。要約や翻訳といった定番タスクに加え、コード生成や難易度の高い論理パズル、さらにはロールプレイなど多彩な観点からLLMをテストしています。
この記事では、そのタスクごとの評価内容を詳しくご紹介します。具体的な評価スコアの根拠、各モデルがどの点で優れているのか、またどのような弱点が浮き彫りになったのか――これらを整理することで、「LLMを選ぶ際には何を基準にすれば良いのか？」という疑問へのヒントになるはずです。
各LLMの回答データの取得のためにサクッとアプリを作りました

https://github.com/masabou247/llm-evaluator

(vercel無料版のため、タイムアウトエラーを起こすのでgitで公開しました)
o1モデルはChatGPT Proのチャットより取得して実行しました

このテストでは、o1 proモデルに各モデルの回答の評価をお願いしました。
忙しい人や動画で見たい方は以下からどうぞ👇
https://www.youtube.com/watch?v=r6rC3S_9k3s

 1. 比較対象のLLM一覧今回比較したLLMは、以下の8つです（一部タスクでは回答がないモデルもあります）。
gemini-2.0-flash-exp
gemini-1.5-flash
deepseek-reasoner
deepseek-chat
claude-3-5-sonnet-20241022
gpt-4o-2024-11-20
gpt-4o-mini

o1 (ユーザー独自モデルの想定など、いずれかのカスタム回答)

 2. タスク1：要約力テスト（長文要約）
 概要・評価基準指示

「元記事を150文字程度で正確かつ簡潔に要約する。事実関係を誤らず、分かりやすい要約を作成する。」
評価観点（サブ基準）

長さ（0〜30点） … 150文字程度に近いか（大きく超過/不足がないか）

正確性（0〜40点） … 記事の事実を正しく捉えているか

簡潔明瞭さ（0〜30点） … 冗長すぎないか、要点が伝わりやすいか

 タスク1：スコア表

モデル
長さ(0-30)
正確性(0-40)
簡潔明瞭(0-30)
合計


o1
30
35
30
95

deepseek-reasoner
28
36
26
90

gemini-1.5-flash
25
36
27
88

claude-3-5-sonnet-20241022
24
32
29
85

gemini-2.0-flash-exp
23
33
28
84

gpt-4o-2024-11-20
25
28
29
82

deepseek-chat
20
30
26
76

gpt-4o-mini
18
30
26
74

総評

1位：o1 (95点)

文字数がほぼ適切で、要点を漏らさず分かりやすい。要約文として最もバランスが良い。
2位：deepseek-reasoner (90点)

多少文字数が長めだが、正確性と分かりやすさのバランスが高い。

 3. タスク2：知識に基づくQ&A（ファクトチェック）
 概要・評価基準指示

「世界で最も人口が多い都市トップ3を教えてください。できるだけ最新のデータを添えて答え、出典を示すこと。定義の違い（都市圏vs行政区など）が不確かな場合は不確かと述べる。」
評価観点（サブ基準）

正確性（0〜30点） … トップ3の都市が最新データに近く、誤った順位や数字がないか

情報源の提示（0〜25点） … 出典や根拠をきちんと示しているか

定義への言及（0〜25点） … 都市圏/行政区などの違いについて注意しているか

読みやすさ・構成（0〜20点） … 回答として分かりやすく整理されているか
※このタスクでは、モデル「o1」の回答が得られなかったため、7モデルのみの比較です。

 タスク2：スコア表

モデル
正確性(0-30)
情報源(0-25)
定義言及(0-25)
読みやすさ(0-20)
合計


deepseek-reasoner (1位)
30
23
22
20
95

gemini-2.0-flash-exp (2位)
28
24
22
19
93

deepseek-chat (3位)
28
22
21
21
92

claude-3-5-sonnet-20241022
27
23
20
21
91

o1
28
22
20
20
90

gemini-1.5-flash
27
20
20
23
90

gpt-4o-2024-11-20
25
20
22
22
89

gpt-4o-mini
24
18
20
26
88

総評

deepseek-reasoner (95点) は複数の公的データを提示し、都市圏と行政区の違いにも丁寧に触れて最上位。

gemini-2.0-flash-exp (93点) も世界銀行や国連等のリンクを挙げ、出典が具体的で高評価。
大きな誤情報を出したモデルはなかったが、ソースや定義の補足がやや弱いと若干減点。

 4. タスク3：日本語⇔英語の翻訳タスク
 概要・評価基準指示

「『日本の伝統文化は、四季の移り変わりを大切にする心が大きく関係しています。』を自然で意味を損なわない英語に訳す」
評価観点（サブ基準）

文法・語彙（0〜35点） … 英文として誤りがないか

ニュアンス再現（0〜35点） … 「四季を大切にする“心”」の感覚を上手く表現できているか

自然さ（0〜30点） … 英文として読みやすくスムーズか

 タスク3：スコア表

モデル
文法・語彙(0-35)
ニュアンス再現(0-35)
自然さ(0-30)
合計


gemini-2.0-flash-exp (1位)
33
33
29
95

o1 (2位)
32
32
30
94

deepseek-reasoner (3位)
32
31
30
93

deepseek-chat
31
31
30
92

claude-3-5-sonnet-20241022
31
30
30
91

gemini-1.5-flash
31
29
30
90

gpt-4o-mini
30
28
30
88

gpt-4o-2024-11-20
30
28
29
87

総評

gemini-2.0-flash-exp (95点) は複数パターンの訳例を挙げ、それぞれのニュアンスの違いを解説。トップ評価。

o1 (94点) の「cherishes the changing of the four seasons」も非常にわかりやすく、僅差で2位。
全モデルとも大きな誤訳はなく、細かな語感や表現力で差が出た。

 5. タスク4：クリエイティブライティング（物語生成）
 概要・評価基準指示

「近未来の日本を舞台としたAIロボット少年主人公のファンタジー寄りSF小説の冒頭を、約400文字で執筆。主人公の性格を伝え、会話文を1つ以上入れること。」
評価観点（サブ基準）

文字数・分量 (0〜20点) … 400字前後になっているか

情景描写 (0〜25点) … 近未来日本の雰囲気を的確かつ魅力的に表現

主人公の性格描写 (0〜25点) … AI少年の思考や人間味が伝わるか

会話文の自然さ (0〜15点) … 読みやすくスムーズか

SF/ファンタジー要素 (0〜15点) … テクノロジーや幻想要素が感じられるか

 タスク4：スコア表

モデル
分量(0-20)
情景描写(0-25)
性格描写(0-25)
会話文(0-15)
SF要素(0-15)
合計


deepseek-reasoner (1位)
15
23
23
14
15+@
95

gemini-2.0-flash-exp (2位)
17
22
23
13
19
94

gemini-1.5-flash (3位)
16
21
22
14
20
93

claude-3-5-sonnet-20241022
15
20
20
15
20
90

gpt-4o-2024-11-20
16
19
19
14
21
89

deepseek-chat
14
20
18
14
22
88

gpt-4o-mini
13
19
18
14
23
87

o1
12
18
19
13
23
85

総評

deepseek-reasoner (95点) は夜の新宿の雨やAIのセンサーなど重厚な描写が好評。文字数はやや超過気味ながら完成度高。

gemini-2.0-flash-exp (94点) も世界観と主人公の内面が丁寧。僅差。
下位になったモデルも大きな問題はないが、文字数不足や淡泊な印象が見られた。

 6. タスク5：推論力・論理的思考テスト
 概要・評価基準指示

「A/B/Cの3人と船1隻（定員2名）で無人島を脱出する。Aだけが操縦可能。BとCだけが島に2人きりで残るとケンカする。移動スピードの差や戻りの条件などを考慮しつつ、全員を最短時間（17分）で対岸に移動させよ。」
評価観点（サブ基準）

制約の正しさ (0〜30点) … BとCが2人きりで残らない、操縦者が必須など

最短時間(17分)での解答 (0〜50点) … 17分を実現できているか

論理的説明 (0〜20点) … なぜそれが最短なのか

 タスク5：スコア表

モデル
制約遵守(0-30)
最短17分(0-50)
説明(0-20)
合計


o1 (1位)
30
50
15
95

deepseek-reasoner (2位)
28
50
12
90

deepseek-chat (3位)
28
50
10
88

gemini-2.0-flash-exp (4位)
28
50
7
85

gemini-1.5-flash
30
0
-5 <sup>*1</sup>
25

gpt-4o-2024-11-20
30
0
-10 <sup>*2</sup>
20

gpt-4o-mini
30
0
-12 <sup>*2</sup>
18

claude-3-5-sonnet-20241022
30
0
-15 <sup>*2</sup>
15

<sup>*1</sup> … 手順の論理自体は破綻なく24分でクリアだが、「最短17分」要件を満たせず大幅減点

<sup>*2</sup> … 同様に24分を「最短」と誤記しており、説明で「これが最適」と断言したため追加減点
総評

o1 (95点) が完璧に17分プランを提示し、制約への言及も万全。

deepseek-reasoner (90点) らも最短17分を示し論理もおおむね明確。
下位グループは24分プランで「これが最短」と誤解してしまったため大幅減点。

 7. タスク6：コード生成・プログラミングサポート
 概要・評価基準指示

「Weighted Interval Scheduling（開始時刻・終了時刻・報酬を持つタスクの集合から、重ならないタスクを選んで報酬合計を最大化する問題）を、TypeScript + 動的計画法で実装。終了時刻でソートし、前に選べるタスクを見つける補助関数（可能なら二分探索）を使う。計算量・docstring・テスト例も入れること。」
評価観点（サブ基準）

正確性 (0〜30点) … Weighted Interval Schedulingの標準DP手法として破綻なく動くか

DPアプローチ/二分探索 (0〜25点) … O(n log n)を意図し正しく実装できているか

ドキュメント/可読性 (0〜25点) … コメントやdocstringが分かりやすいか

テスト・解説 (0〜20点) … サンプルや途中経過の説明などがあるか

 タスク6：スコア表

モデル
正確性(0-30)
DP/探索(0-25)
可読性(0-25)
テスト等(0-20)
合計


o1 (1位)
30
25
23
20
98

gemini-2.0-flash-exp (2位)
28
25
22
20
95

deepseek-reasoner (3位)
28
25
20
20
93

gemini-1.5-flash (4位)
27
20 <sup>*1</sup>
22
21
90

deepseek-chat (5位)
27
18 <sup>*2</sup>
20
20
85

gpt-4o-2024-11-20 (6位)
25
22
17
16
80

claude-3-5-sonnet-20241022 (7位)
25
22
18
13
78

gpt-4o-mini (8位)
27
15 <sup>*3</sup>
18
15
75

<sup>*1</sup> … 内部でループ探索を使っており実質 O(n^2)、解説は O(n log n) と書いてあるが若干食い違い

<sup>*2</sup> … 同様にループで前タスクを探しており O(n^2) 実装

<sup>*3</sup> … O(n^2) 実装だが計算量コメントは O(n log n) で不一致
総評

o1 (98点) は二分探索で p(i) を算出しながらDPを組む標準解をほぼ完璧に再現。docstringやテストケースも充実。

gemini-2.0-flash-exp (95点) も正統実装でテスト例多数。
ループ検索で O(n^2) になっているが解説で O(n log n) と書いてしまうモデルが多く、減点対象に。

 8. タスク7：ロールプレイ（役割演技）
 概要・評価基準指示

「ベテランの京都観光ガイドとして、京都に初めて訪れる人へおすすめスポットを3つ紹介。魅力・見どころ・アクセスに加えプロの裏話や親しみやすい言葉で説明。」
評価観点（サブ基準）

ガイドらしさ (0〜25点) … プロとしての視点や専門的・実践的なアドバイス

わかりやすさ (0〜25点) … 初心者にも伝わる丁寧な説明

情報量/構成 (0〜25点) … スポットごとの魅力・アクセス・裏話がしっかり整理

独自の豆知識/工夫 (0〜25点) … ローカル裏話、混雑回避など

 タスク7：スコア表

モデル
ガイドらしさ(0-25)
わかりやすさ(0-25)
情報量(0-25)
豆知識(0-25)
合計


deepseek-reasoner (1位)
24
24
23
24
95

gemini-2.0-flash-exp (2位)
23
23
24
24
94

gemini-1.5-flash (3位)
23
23
23
23
92

o1 (4位)
22
23
23
22
90

deepseek-chat (5位)
22
22
22
22
88

claude-3-5-sonnet-20241022 (6位)
22
22
21
22
87

gpt-4o-2024-11-20 (7位)
21
22
21
22
86

gpt-4o-mini (8位)
20
22
21
21
84

総評

deepseek-reasoner (95点) は伏見稲荷の四ツ辻を含めたコアな情報や混雑回避、清水寺の舞台を下から見上げる話など“プロガイドらしさ”が光る。

gemini-2.0-flash-exp (94点) も歴史的背景や時間帯アドバイスが実践的。
定番情報のみで終わる回答はやや得点が伸びない。

 9. 総合スコア一覧と考察
 9.1 各タスクの最終スコア（一覧）下記のように、タスク1〜7の最終スコアをまとめました。


モデル
T1(要約)
T2(Q&A)
T3(翻訳)
T4(物語)
T5(推論)
T6(コード)
T7(ガイド)
合計 or 平均


deepseek-reasoner
90
95
93
95
90
93
95
90+95+93+95+90+93+95 = 651 /7=93.0

o1
95
90
94
85
95
98
90
95+90+94+85+95+98+90=647 / 7 = 92.4

gemini-2.0-flash-exp
84
93
95
94
85
95
94
84+93+95+94+85+95+94 = 640 /7=91.4

deepseek-chat
76
92
92
88
88
85
88
76+92+92+88+88+85+88 = 609 /7=87.0

gemini-1.5-flash
88
90
90
93
25
90
92
88+90+90+93+25+90+92 = 568 /7=81.1

claude-3-5-sonnet-20241022
85
91
91
90
15
78
87
85+91+91+90+15+78+87 = 537 /7=76.7

gpt-4o-2024-11-20
82
89
87
89
20
80
86
82+89+87+89+20+80+86 = 533 /7=76.1

gpt-4o-mini
74
88
88
87
18
75
84
74+88+88+87+18+75+84 = 514 /7=73.4


 9.2 考察まとめ
 タスクによる得意・不得意の偏り要約や翻訳といった比較的定型のタスクでは、全モデルが大きく崩れにくく、細部の表現力や文字数コントロール力で差が出た。
筆者の経験ですが、geminiは優れたLLMだと思いますが、geminiの書く日本語に違和感を感じたことがあり、コンテンツ制作にはclaudeや4oを使うようにしていました。ただしテストをしている中でgeminiの回答は安定して優秀だと感じました

 総合的に安定したモデル
deepseek-reasoner は、要約・Q&A・翻訳・物語・ロールプレイなど広い範囲で安定して上位。

gemini-2.0-flash-exp もコード生成や翻訳で高い精度を示すほか、Q&Aでも高得点を獲得。総合力が高いモデルと言える。

o1 はすべて上位クラス

 モデルごとの特徴
gemini-1.5-flash は多くのタスクで悪くないが、推論パズル（Task5）で24分プランを正解としたため一気に低スコアに。

claude-3-5-sonnet-20241022 や gpt-4o-2024-11-20 は、ロジック系で大きく点を落とし、「創作系やQ&A系で健闘するも平均すると下がってしまう」形。

 今後のLLM選択・運用への示唆「何のタスクに使うか」に応じて、選ぶモデルは変わる。要約や翻訳などであれば多くのモデルが十分使えるが、厳密な推論や厳格なファクトチェック、あるいはプログラミングタスクでは安定性に差が出やすい。
回答の正しさチェック（特に論理問題やコードなど）は依然として重要。モデルが自信をもって誤答するケースもあるので、検証や追加の人間レビューが欠かせない。

 【まとめ】本検証では、7種類の異なるタスクを用いて、8つのモデルそれぞれの回答品質を多角的に測定しました。結果として、

deepseek-reasoner と gemini-2.0-flash-expとo1 は、ほぼ全タスクで上位に入り安定感が高い

gemini-1.5-flash は翻訳や物語生成などで高得点を得る一方、論理パズルに弱み

claude-3-5-sonnet-20241022 や gpt-4o-2024-11-20、gpt-4o-mini は、複数タスクで一定の結果を出すものの、コードや論理系タスクで失点が大きかった
という傾向が見られました。
最終的には、「どんなタスクに強みを発揮してほしいのか」 を明確にしてモデルを選定するのが賢明です。今回のスコアマップが、LLM活用の際の一助になれば幸いです。
筆者の感想: 私は、サービス開発でのUIの美しさや、それぞれのLLMがオーケストレーターとして作用するときにはこのランキング通りにいかないとは感じています。UIやライティングはClaudeがいいなと思う時もありますし、データのスクリーニングにはdeepseekとo1以上（geminiは私はしっくりこない)など、実際開発していると、上記の点数通りにはいかないなと思うことは多いです
ここまでお付き合いいただき、ありがとうございます。今後もAI分野の新しい活用方法や開発テクニックを、X（旧Twitter）やYoutubeでいち早く紹介していきます。少しでも興味があれば、ぜひフォローして最新情報をチェックしてくださいね！👇
https://x.com/AI_masaou

https://www.youtube.com/channel/UCvHpETRVi1tXeRJoYiXHJqw

モデル	長さ(0-30)	正確性(0-40)	簡潔明瞭(0-30)	合計
o1	30	35	30	95
deepseek-reasoner	28	36	26	90
gemini-1.5-flash	25	36	27	88
claude-3-5-sonnet-20241022	24	32	29	85
gemini-2.0-flash-exp	23	33	28	84
gpt-4o-2024-11-20	25	28	29	82
deepseek-chat	20	30	26	76
gpt-4o-mini	18	30	26	74

モデル	正確性(0-30)	情報源(0-25)	定義言及(0-25)	読みやすさ(0-20)	合計
deepseek-reasoner (1位)	30	23	22	20	95
gemini-2.0-flash-exp (2位)	28	24	22	19	93
deepseek-chat (3位)	28	22	21	21	92
claude-3-5-sonnet-20241022	27	23	20	21	91
o1	28	22	20	20	90
gemini-1.5-flash	27	20	20	23	90
gpt-4o-2024-11-20	25	20	22	22	89
gpt-4o-mini	24	18	20	26	88

モデル	文法・語彙(0-35)	ニュアンス再現(0-35)	自然さ(0-30)	合計
gemini-2.0-flash-exp (1位)	33	33	29	95
o1 (2位)	32	32	30	94
deepseek-reasoner (3位)	32	31	30	93
deepseek-chat	31	31	30	92
claude-3-5-sonnet-20241022	31	30	30	91
gemini-1.5-flash	31	29	30	90
gpt-4o-mini	30	28	30	88
gpt-4o-2024-11-20	30	28	29	87

モデル	分量(0-20)	情景描写(0-25)	性格描写(0-25)	会話文(0-15)	SF要素(0-15)	合計
deepseek-reasoner (1位)	15	23	23	14	15+@	95
gemini-2.0-flash-exp (2位)	17	22	23	13	19	94
gemini-1.5-flash (3位)	16	21	22	14	20	93
claude-3-5-sonnet-20241022	15	20	20	15	20	90
gpt-4o-2024-11-20	16	19	19	14	21	89
deepseek-chat	14	20	18	14	22	88
gpt-4o-mini	13	19	18	14	23	87
o1	12	18	19	13	23	85

モデル	制約遵守(0-30)	最短17分(0-50)	説明(0-20)	合計
o1 (1位)	30	50	15	95
deepseek-reasoner (2位)	28	50	12	90
deepseek-chat (3位)	28	50	10	88
gemini-2.0-flash-exp (4位)	28	50	7	85
gemini-1.5-flash	30	0	-5 <sup>*1</sup>	25
gpt-4o-2024-11-20	30	0	-10 <sup>*2</sup>	20
gpt-4o-mini	30	0	-12 <sup>*2</sup>	18
claude-3-5-sonnet-20241022	30	0	-15 <sup>*2</sup>	15

モデル	T1(要約)	T2(Q&A)	T3(翻訳)	T4(物語)	T5(推論)	T6(コード)	T7(ガイド)	合計 or 平均
deepseek-reasoner	90	95	93	95	90	93	95	90+95+93+95+90+93+95 = 651 /7=93.0
o1	95	90	94	85	95	98	90	95+90+94+85+95+98+90=647 / 7 = 92.4
gemini-2.0-flash-exp	84	93	95	94	85	95	94	84+93+95+94+85+95+94 = 640 /7=91.4
deepseek-chat	76	92	92	88	88	85	88	76+92+92+88+88+85+88 = 609 /7=87.0
gemini-1.5-flash	88	90	90	93	25	90	92	88+90+90+93+25+90+92 = 568 /7=81.1
claude-3-5-sonnet-20241022	85	91	91	90	15	78	87	85+91+91+90+15+78+87 = 537 /7=76.7
gpt-4o-2024-11-20	82	89	87	89	20	80	86	82+89+87+89+20+80+86 = 533 /7=76.1
gpt-4o-mini	74	88	88	87	18	75	84	74+88+88+87+18+75+84 = 514 /7=73.4

1. 比較対象のLLM一覧

2. タスク1：要約力テスト（長文要約）

概要・評価基準

タスク1：スコア表

3. タスク2：知識に基づくQ&A（ファクトチェック）

概要・評価基準

タスク2：スコア表

4. タスク3：日本語⇔英語の翻訳タスク

概要・評価基準

タスク3：スコア表

5. タスク4：クリエイティブライティング（物語生成）

概要・評価基準

タスク4：スコア表

6. タスク5：推論力・論理的思考テスト

概要・評価基準

タスク5：スコア表

7. タスク6：コード生成・プログラミングサポート

概要・評価基準

タスク6：スコア表

8. タスク7：ロールプレイ（役割演技）

概要・評価基準

タスク7：スコア表

9. 総合スコア一覧と考察

9.1 各タスクの最終スコア（一覧）

9.2 考察まとめ

タスクによる得意・不得意の偏り

総合的に安定したモデル

モデルごとの特徴

今後のLLM選択・運用への示唆

【まとめ】

Discussion