🦁

クラウド生成 AI サービス比較調査結果（2025年5月）

2025/05/08に公開

 1. 調査目的主要なクラウド生成 AI サービスを対象に、性能、価格、日本語対応、長文処理能力などの観点で比較し、用途に応じた選定の指針を得る。

 2. 比較対象と構成以下の 7 モデルを中心に調査を実施。


サービス名
モデル名
提供元


OpenAI
GPT-4o
OpenAI

Anthropic
Claude 3 Opus
Anthropic

Google
Gemini 1.5 Pro
Google DeepMind

Mistral
Mistral Large 2
Mistral AI

Meta / Groq
Llama 3 70B
Meta / Groq

Perplexity
Sonar Pro
Perplexity AI

Inflection
Pi
Inflection AI


 3. 比較表（要点）
 モデル性能・対応力比較

モデル
推論能力（MMLU 等）
最大トークン長
日本語対応
コーディング性能


GPT-4o
非常に高い（MMLU 82）
128K
高精度
HumanEval 88%

Claude 3 Opus
非常に高い（MMLU 80 以上）
200K
非常に高精度
高精度

Gemini 1.5 Pro
高い（MMLU 80 前後）
最大 1M
高精度
高精度

Mistral Large 2
中程度（MMLU 70 台）
128K
中程度
中程度

Llama 3 70B
中程度
128K
中程度
高精度（Groq 環境下）

Sonar Pro
高精度（マルチステップ対応）
非公開
高精度
中程度

HeyPi
中程度（対話特化）
非公開
高精度
非対応


 価格（API 利用）

モデル
入力/出力 1K tokens 単価（USD）


GPT-4o
$0.03 / $0.06

Claude 3 Opus
$0.015 / $0.075

Gemini 1.5 Pro
$0.0375 / $0.15（128K 以下）

Mistral Large 2
$0.003 / $0.009

Llama 3 70B
$0.00059 / $0.00079

Sonar Pro
$0.003 / $0.015

HeyPi
無料（API 未提供）


 4. 実地評価と所感

観点
評価モデル例
備考


レスポンス速度
Llama 3.1（Groq）
非常に高速

創造性・一貫性
GPT-4o, Claude 3 Opus
高い応答の安定性と創造性

日本語表現力
Claude 3 Opus
最も自然かつ高度な応答

長文対応
Gemini 1.5 Pro（1M token）
文書要約や対話に最適

コーディング
Llama 3.1 405B, GPT-4o
HumanEval 89%、88%


 5. 用途別推奨モデル

用途
推奨モデル


高速な応答
Llama 3.1（Groq）, Mistral Large 2

高精度な日本語対応
Claude 3 Opus, GPT-4o, Llama 3.1

高度なコーディング支援
Llama 3.1 405B, GPT-4o

大規模文書・長文処理
Gemini 1.5 Pro, Claude 3 Opus

パーソナル対話・感情対応
HeyPi（Inflection AI）


 6. 総評と結論
Claude 3 Opus は日本語表現力に優れた高性能 LLM で、対話・要約・翻訳に強い。

GPT-4o は高精度・高汎用性のバランスが取れた万能型で、API も安定。

Gemini 1.5 Pro は超長文処理やマルチモーダル処理に強み。

Mistral / Llama 3（Groq） はコストパフォーマンスや高速性が特徴。

Sonar Pro は検索・要約を組み合わせた新しいユースケースに向く。

HeyPi は API 提供こそ無いが、対話品質と反応の自然さで特化型の価値がある。

 7. 今後の検討課題API 連携実験（呼び出し速度・トークン消費・JSON 処理）
独自ユースケースとの統合検証（社内 FAQ、ソースコードレビュー等）
日本語長文生成・読み込みテストの継続
商用利用時の利用規約・ライセンス範囲の比較

サービス名	モデル名	提供元
OpenAI	GPT-4o	OpenAI
Anthropic	Claude 3 Opus	Anthropic
Google	Gemini 1.5 Pro	Google DeepMind
Mistral	Mistral Large 2	Mistral AI
Meta / Groq	Llama 3 70B	Meta / Groq
Perplexity	Sonar Pro	Perplexity AI
Inflection	Pi	Inflection AI

モデル	推論能力（MMLU 等）	最大トークン長	日本語対応	コーディング性能
GPT-4o	非常に高い（MMLU 82）	128K	高精度	HumanEval 88%
Claude 3 Opus	非常に高い（MMLU 80 以上）	200K	非常に高精度	高精度
Gemini 1.5 Pro	高い（MMLU 80 前後）	最大 1M	高精度	高精度
Mistral Large 2	中程度（MMLU 70 台）	128K	中程度	中程度
Llama 3 70B	中程度	128K	中程度	高精度（Groq 環境下）
Sonar Pro	高精度（マルチステップ対応）	非公開	高精度	中程度
HeyPi	中程度（対話特化）	非公開	高精度	非対応

モデル	入力/出力 1K tokens 単価（USD）
GPT-4o	$0.03 / $0.06
Claude 3 Opus	$0.015 / $0.075
Gemini 1.5 Pro	$0.0375 / $0.15（128K 以下）
Mistral Large 2	$0.003 / $0.009
Llama 3 70B	$0.00059 / $0.00079
Sonar Pro	$0.003 / $0.015
HeyPi	無料（API 未提供）

観点	評価モデル例	備考
レスポンス速度	Llama 3.1（Groq）	非常に高速
創造性・一貫性	GPT-4o, Claude 3 Opus	高い応答の安定性と創造性
日本語表現力	Claude 3 Opus	最も自然かつ高度な応答
長文対応	Gemini 1.5 Pro（1M token）	文書要約や対話に最適
コーディング	Llama 3.1 405B, GPT-4o	HumanEval 89%、88%

用途	推奨モデル
高速な応答	Llama 3.1（Groq）, Mistral Large 2
高精度な日本語対応	Claude 3 Opus, GPT-4o, Llama 3.1
高度なコーディング支援	Llama 3.1 405B, GPT-4o
大規模文書・長文処理	Gemini 1.5 Pro, Claude 3 Opus
パーソナル対話・感情対応	HeyPi（Inflection AI）

1. 調査目的

2. 比較対象と構成

3. 比較表（要点）

モデル性能・対応力比較

価格（API 利用）

4. 実地評価と所感

5. 用途別推奨モデル

6. 総評と結論

7. 今後の検討課題

Discussion