📖

早分かり生成AIモデルの特徴解説

Takeshi Ishida

2025/10/16に公開

 はじめに直近、生成AIを活用した開発案件が増えてきたと感じているエンジニアの方は多いと思います。

生成AI案件を推進するにあたって、自身の案件でどの生成AIモデルを使えば良いのか悩んでいる方も多いのではないでしょうか。

生成AIモデルは種類も多く、更新サイクルも早いため、この領域を専門としているデータサイエンティストであっても「どのモデルが良いか」「自分の担当する案件に適したモデルは何か」を判断することは容易ではありません。
そこで本記事では、生成AIモデルの性能を理解するうえで参考となる各種ベンチマークを紐解きながら、これをもとに主要な生成AIモデルの特性について解説しようと思います。また、ベンチマークのみを見ていると見落としてしまう観点や、今後の生成AIモデルの発展についても補足します。
ご自身の案件での生成AIモデル選定の参考として頂ければと思います。

 生成AIのベンチマーク生成AIのベンチマークについて、現時点で代表的なもの[1]を以下に列記します。

AIME2025：数理読解、推論を評価

2025年の米国の数学競技試験全30題に回答するよう生成AIに指示し、正答率を評価。

GPQA Diamond：科学知識、推論を評価

専門家が作成した生物学、物理学、化学の多肢選択式問題に回答するよう生成AIに指示し、正答率を評価。難易度は高く設定されており、博士号を持つ専門家でも正答率は7割程度。

Humanity’s Last Exam：学術知識、推論を評価

専門家(主に教授、研究者、大学院学位取得者)が作成した100を超える学術領域に跨る2,500問の難問へ回答するよう生成AIに指示し、正答率を評価。設問の1割強は画像読解を伴う。

MMMU：マルチモーダル情報の理解、推論を評価

芸術、ビジネス、科学、健康・医学、人文・社会科学、技術・工学の6分野に関する表・チャート・写真などの画像を参照したうえで質問に回答するよう生成AIに指示し、回答精度を評価。

HHEM：ハルシネーションリスクの評価

生成AIが誤情報を生成してしまう"ハルシネーション"に関するベンチマーク。生成AIにニュース等の入力データを忠実に要約するよう指示し、ハルシネーション発生率を評価。

SWE-bench Verified：プログラムの修正能力を評価

GitHubから収集した実際のプログラムと発生している不具合の説明を与えて、生成AIに不具合を修正するよう指示し、テストを行って成否を評価。
なお、生成AIのベンチマークは確立・固定化されたものではなく、日進月歩で整備・拡充が進んでいます。例えば学術試験型のベンチマークのスコアが飽和しつつあることを踏まえて、人間が実際に行っている仕事を正しく処理できるか評価する実践的ベンチマークも提唱され始めています。

 生成AIモデルの評価結果上記のベンチマークに関する主要生成AIモデルの評価結果[2]は以下の通りです。



Gemini
2.5Pro
GPT-5
Claude
Sonnet4.5
備考



数理読解、推論
AIME2025
87.7
94.3
88.0



科学知識、推論
GPQA Diamond
84.4
85.4
83.4



学術知識、推論
Humanity’s Last Exam
21.1
26.5
17.3



マルチモーダル理解、推論
MMMU
84.0
84.2
77.8



ハルシネーション
HHEM
2.6
1.4
5.5
スコアはハルシネーション率
のため、値が低いほど精度高


プログラミング
SWE-bench Verified
53.6
65.0
70.6


GPTが万能型、Claudeはコーディング重視、Geminiはコーディングはやや弱いものの万能型であるといった傾向が分かります。

なお、上記3モデルはリリース日が異なります。直近でリリースされたモデルの精度が高くなる傾向がある点にご注意ください。

※Gemini2.5Proは2025/6/17リリース。GPT-5は2025/8/7リリース。Claude Sonnet4.5は2025/9/29リリース。
また、時系列の精度変化に着眼してベンチマークを参照することもおすすめです。例えばHumanity's Last Examのスコアの時系列変化(下記サイト下段のScore vs. Release Date)を確認すると、各社のモデル精度が短い期間で急速に改善していることが分かります。

また現時点の首位はGPTですが、Geminiのスコアの伸びが大きいことに着眼すると、今後GPTがGeminiを追う展開になる可能性もあることが読み取れます。

Humanity's Last Exam

 ベンチマークでは測れない能力ベンチマークを参照することは有用ですが、これのみでは見落としてしまう要素があるため補足しておきます。

生成AIの能力は年々拡大しており、直近では動画像や音声の処理、コンピュータ操作、ロボット自律制御などを実現するサービス、機能が拡充されています。しかしながら新たな能力に対応するベンチマークは未整備であることが多く、ベンチマークを見ているだけではこれらの変化に気づくことはできません。
生成AIの能力拡張は、顧客の需要やユースケース、サービス提供企業の競争・共創環境といったレベルから変化を生じさせる重要な要素であると考えられるため、注意を払っておく必要があります。

 各社の注目すべきサービス


Google
(Gemini)
OpenAI
(GPT)
Anthropic
(Claude)
想定用途


動画像生成

Veo3
音声付動画生成
NanoBanana
画像生成・編集

Sora2
音声付動画生成

マーケティング、研修、コンテンツ制作など

音声生成

Gemini Live
音声対話

gpt-realtime
音声対話

Voice mode
音声対話
営業、電話応対など

コンピュータ操作

ComputerUse
ブラウザ自動操作

ComputerUse
PC自動操作

ComputerUse
PC自動操作
デスクトップ業務自動化など

ロボット操作

Gemini Robotics
ロボット自律行動


製造、物流、介護支援など


 最後に本記事では生成AI案件を推進するにあたって必要な各モデルの性能、特性の把握について、ベンチマークの観点から整理し、ベンチマークでは測れない観点についても補足させて頂きました。ぜひご自身の案件での生成AIモデル選定等のご参考として頂けると幸いです。

脚注
ベンチマーク自体の有用性に加えて、各モデルの評価結果が取得しやすく、モデル比較に使いやすいものを選定 ↩︎
2025年10月上旬に各ベンチマークのleaderboardから取得

AIME2025

GPQA Diamond

Humanity’s Last Exam

MMMU

HHEM

SWE-bench Verified ↩︎

	Gemini 2.5Pro	GPT-5	Claude Sonnet4.5	備考
数理読解、推論 AIME2025	87.7	94.3	88.0
科学知識、推論 GPQA Diamond	84.4	85.4	83.4
学術知識、推論 Humanity’s Last Exam	21.1	26.5	17.3
マルチモーダル理解、推論 MMMU	84.0	84.2	77.8
ハルシネーション HHEM	2.6	1.4	5.5	スコアはハルシネーション率のため、値が低いほど精度高
プログラミング SWE-bench Verified	53.6	65.0	70.6

	Google (Gemini)	OpenAI (GPT)	Anthropic (Claude)	想定用途
動画像生成	Veo3 音声付動画生成 NanoBanana 画像生成・編集	Sora2 音声付動画生成		マーケティング、研修、コンテンツ制作など
音声生成	Gemini Live 音声対話	gpt-realtime 音声対話	Voice mode 音声対話	営業、電話応対など
コンピュータ操作	ComputerUse ブラウザ自動操作	ComputerUse PC自動操作	ComputerUse PC自動操作	デスクトップ業務自動化など
ロボット操作	Gemini Robotics ロボット自律行動			製造、物流、介護支援など

NTT DATA TECH

NTT DATA公式アカウントです。技術を愛するNTT DATAの技術者が、気軽に楽しく発信していきます。当社のサービスなどについてのお問い合わせは、お問い合わせフォーム nttdata.com/jp/ja/contact-us/ へお願いします。

設定によりコメント欄が無効化されています