🐙

【徹底比較】OpenAI o3 / o4‑mini vs. 最新LLM勢 ─ 性能・用途・価格まで丸わかりガイド（2025年4月版）

2025/04/18に公開

 最前線のLLM選び、何が正解？「結局どのモデルを選べばいいの？」――2025年現在、大規模言語モデル（LLM）は百花繚乱。性能・価格・ユースケースの差が広がり、プロダクト選定やPoCで頭を抱えるエンジニア／PMは少なくありません。本記事では、OpenAIが2025年4月に公開した最新モデル “o3” と “o4‑mini” を軸に、Anthropic、Google、Meta、Mistralの 競合LLM を“ガチ比較”。開発者視点で使いどころ・コスト・技術的特徴を整理し、“迷わないモデル選定”を後押しします。

 前提知識・背景
 1. LLMとは？大規模言語モデル（Large Language Model）は、膨大なテキスト（数兆トークン）と自己注意機構で学習した推論エンジン。2023年のGPT‑4を皮切りに、推論特化・マルチモーダル・長文処理など“特化型LLM”が続々登場しています。

 2. 用語ざっくり辞書

用語
意味


トークン
モデル内部で扱うサブワード単位。英語1単語≈1.3 token、日本語1文字≈1 token

コンテキスト長
一度に保持できる入力長。長いほど“長文を一気読み”できる

パラメータ数
ニューラルネットの重み総数。多いほど表現力が高いがメモリ・計算コスト増

推論チェーン (CoT)
モデルが回答までに踏む思考ステップ。o3は内部で隠れCoTを実行する

歴史的には2018年BERT⇒2020年GPT‑3⇒2023年GPT‑4で“汎用チャット”が実用化、2024年からは推論ブーストとマルチモーダルの覇権争いにシフトしています。

 本論：o3 / o4‑mini を中心に最新LLMを深掘り
 3‑1. OpenAI o3 ─ “考える”を実装したハイエンドモデル
リリース：2025‑04‑16

特徴：内部で“非公開CoT”を走らせ、数学・科学・コーディングで圧倒的。Codeforces Elo 2727は人間TOP0.2%級。

マルチモーダル：テキスト中心（画像入力はo4系列でサポート）。

API価格：Input $10／M token、Output $40／M token（Batch割引‑50%）
from openai import OpenAI
client = OpenAI()

resp = client.chat.completions.create(
    model="o3",  # <-- o3を指定
    messages=[
        {"role": "user", "content": "Explain quantum entanglement in simple terms."}
    ]
)
print(resp.choices[0].message.content)
Tips: 計算量が重いので、max_tokensを絞る／stream=Trueで部分ストリーム取得するとレイテンシを抑えられます。

 3‑2. OpenAI o4‑mini ─ 軽さ・速さ・画像推論の三拍子
リリース：2025‑04‑16（o3と同時）

特徴：画像+テキスト=統合推論。“手書きホワイトボード→回答”が得意。無料ユーザーもアクセス可。

高速版：o4-mini-high はPlus/Pro限定。約1.7×レスポンス高速。

API価格：Input $1.10／M token、Output $4.40／M token （GPT‑4o mini比で依然高性能）
resp = client.chat.completions.create(
    model="o4-mini",  # o4‑mini
    messages=[
        {"role": "user", "content": "<image_url> この回路図の動作原理を解説して"}
    ]
)

 3‑3. 競合モデルを一気見

モデル
パラメータ
代表ベンチマーク
長文処理
マルチモーダル
参考価格／ライセンス


Claude 3.7 Sonnet
非公開（推定≈600B）
MMLU 88.5、SWE‑bench 73
200k token
画像入力OK
$3 in /$15 out per M token (API)

Gemini 2.5 Pro
非公開（推定>1T）
Reasoning FlashベンチSOTA、1M token長文 (2M計画)
1M token
画像・動画・コード
$1.25 in /$10 out per M token (≤200K)、長文$2.5 in /$15 out

LLaMA 3.3 70B
70B
MMLU 88、HumanEval 80
128k (一部拡張)
テキスト専用
無償ウェイト（商用OK※一部制限）

Mistral Large 2
123B
MMLU 90、Toolformer SOTA
128k
Pixtral版で画像
研究ライセンス／商用は要契約

Mistral Small 3 (24B)
24B
MMLU 81（7B級最上位）
128k
画像(3.1)
Apache 2.0 無償

ベンチマークは公称値または公開レポートを引用。詳細は末尾リソースを参照。

 実践的な応用例
 4‑1. SaaS向けRAGシステムに o4‑mini を組み込む
Elasticsearch/Pinecone に社内PDFを埋め込み保存。
Queryをo4‑miniに渡し、画像添付で表や図を理解させる。
リンク先文書をハイライト生成 → フロントへ返却。

 4‑2. ローカルGPUで動く Mistral Small 3# 24GB VRAMで起動例 (LLama.cpp)
python server.py --model mistral-small-3-instruct.Q4_K_M.gguf --context 16384
高速で月額コストゼロ。社内PaaSに組み込みSLA向上を狙えます。

 ベストプラクティス & 最適化
トークン節約：System指示に定型プロンプトIDを使い<|content|> ...で共通化。o3はBatch APIで‑50%。

マルチモーダルの設計：o4‑miniは画像を640×640以下JPEGにリサイズすると推論が安定。

安全性：社外向けチャットではClaude 3.7のConstitutionalモードをプロキシ利用し、フィルタ層を二段構えに。

スケール：LLaMA 3 70BをK8sで水平分割する場合、vLLM + FlashAttention‑2で最大2.3×スループット。

 トラブルシューティング / FAQ

症状
原因と対策


RateLimitError: 429
PlusでもRPM上限あり。分散Queueで指数バックオフ。

"context length exceeded"
クエリ+ヒット文書+画像トークン総量を算出し、tokenizerで事前カット。

画像推論が的外れ
画像のコントラスト不足→PIL.ImageEnhanceでコントラスト1.5を推奨。

LLaMA 3 がGPUメモリ不足

gguf --quantize q4_k_mで量子化 or swap-offloadingを有効化。


 まとめ & 次に取るべきアクション
コスト無視で最高性能→ o3。

低コスト＋画像推論→ o4‑mini。

長文＆安全→ Claude 3.7。

自社GPU活用→ LLaMA 3 / Mistral。
まずはPoCで複数モデルを試し、実タスクで推論品質×コストを計測しましょう。APIならトークンLogging、ローカルならPrometheusでGPU/latency計測をセットにすると判断が速くなります。
将来的には、OpenAIが示す“熟慮型エージェント”路線と、Meta/Mistralの“オープン重み”路線が収束する可能性も。ハイブリッド・エージェント（クラウドo3 + ローカルLLaMAでフェデレーション推論）が次の潮流になるかもしれません。

 参考資料・リソースOpenAI公式ブログ: Announcement: o3 & o4‑mini
Axios: New OpenAI models "think" with images* (2025‑04‑16)
OpenAI API Pricingページ (2025‑04‑16)
Anthropic公式: Claude 3.7 Sonnet Release
Google DeepMind: Gemini 2.5 pro
Meta AI: LLaMA 3 Technical Report (2024‑04‑18)
Mistral AIブログ: Mistral small 3.1

用語	意味
トークン	モデル内部で扱うサブワード単位。英語1単語≈1.3 token、日本語1文字≈1 token
コンテキスト長	一度に保持できる入力長。長いほど“長文を一気読み”できる
パラメータ数	ニューラルネットの重み総数。多いほど表現力が高いがメモリ・計算コスト増
推論チェーン (CoT)	モデルが回答までに踏む思考ステップ。o3は内部で隠れCoTを実行する

モデル	パラメータ	代表ベンチマーク	長文処理	マルチモーダル	参考価格／ライセンス
Claude 3.7 Sonnet	非公開（推定≈600B）	MMLU 88.5、SWE‑bench 73	200k token	画像入力OK	$3 in /$15 out per M token (API)
Gemini 2.5 Pro	非公開（推定>1T）	Reasoning FlashベンチSOTA、1M token長文 (2M計画)	1M token	画像・動画・コード	$1.25 in /$10 out per M token (≤200K)、長文$2.5 in /$15 out
LLaMA 3.3 70B	70B	MMLU 88、HumanEval 80	128k (一部拡張)	テキスト専用	無償ウェイト（商用OK※一部制限）
Mistral Large 2	123B	MMLU 90、Toolformer SOTA	128k	Pixtral版で画像	研究ライセンス／商用は要契約
Mistral Small 3 (24B)	24B	MMLU 81（7B級最上位）	128k	画像(3.1)	Apache 2.0 無償

症状	原因と対策
`RateLimitError: 429`	PlusでもRPM上限あり。分散Queueで指数バックオフ。
"context length exceeded"	クエリ+ヒット文書+画像トークン総量を算出し、`tokenizer`で事前カット。
画像推論が的外れ	画像のコントラスト不足→`PIL.ImageEnhance`でコントラスト1.5を推奨。
LLaMA 3 がGPUメモリ不足	`gguf --quantize q4_k_m`で量子化 or `swap`-offloadingを有効化。

最前線のLLM選び、何が正解？

前提知識・背景

1. LLMとは？

2. 用語ざっくり辞書

本論：o3 / o4‑mini を中心に最新LLMを深掘り

3‑1. OpenAI o3 ─ “考える”を実装したハイエンドモデル

3‑2. OpenAI o4‑mini ─ 軽さ・速さ・画像推論の三拍子

3‑3. 競合モデルを一気見

実践的な応用例

4‑1. SaaS向けRAGシステムに o4‑mini を組み込む

4‑2. ローカルGPUで動く Mistral Small 3

ベストプラクティス & 最適化

トラブルシューティング / FAQ

まとめ & 次に取るべきアクション

参考資料・リソース

Discussion