🧭
GPT‑5が出た後も“使い分け”が必要!? 私の3つの使い分け(2025年8月版)
はじめに
この記事は、以前の「モデル選定アップデート」を GPT‑5 / Gemini 2.5 Pro / Claude Sonnet 4 を前提に総入れ替えした実運用メモです。まずは結論、それから定量の目安も添えます。
まず結論:3つの役割分担
-
プロダクトの中核(長期運用・“丸ごと任せたい”系) → GPT‑5
- 理由: 総合的な賢さ(汎用力)とコーディング・エージェント動作の完成度。大規模運用のエコシステム(監査・権限・SLO設計)も揃っており、中核に据えやすい。
-
ラピッドプロトタイピング/フロント実装・コーディングUX → Gemini 2.5 Pro
- 理由: 回転速度とネイティブ多モーダルでUI試作〜改善の反復が速い。発想の初速は控えめ("アイデア力 0→0.01")だが、対話しながら形にする工程に非常に強い。※ Tool Useの意思決定は弱めなので過信しない。
-
大規模コード改修/長尺計画・仕様化(“読む・直す”が多い) → Claude Sonnet 4
- 理由: 仕様化・長文要約・段階分解の安定感。Tool Useが強く、こちらの設計に素直に乗る。レビュー駆動のリファクタや長期計画を粘り強く回せる。
注: 3者とも強い。差は “使い心地の流儀”とコスト。最終的にはチームのワークフローに合わせた役割分担が効きます。
判断軸(再確認・定量付き)
観点 | 要点 | 代表的に効く場面 | 参考メモ |
---|---|---|---|
精度 | 推論の一貫性・分解力・Tool Useの適切さ | 仕様化、調査・要約、段階的コード修正、依存の長いタスク | 長コンテキスト精度の実測は別章参照 |
推論速度 | 初速・トークン処理効率・対話の回転 | コーディング補助、UI実装、ライブなチャット | Geminiは回転速度が武器/GPT‑5は総合力で遅くない |
可用性 | 安定提供・課金/レート・ガバナンス/監査・SLO | サービス組み込み、長期運用、審査対応 | 監査ログ・SSO/SCIM 等の型が3者とも整備 |
コスト | 入力/出力単価、コンテキスト課金しきい値、キャッシュ | 大量運用、ロングタスク | 下の価格表を随時更新 |
主要モデルの価格と仕様(2025-08-09時点)
表示は USD / 100万トークン(MTok)。キャッシュは“読込/書込”。上限は公称。
モデル | 入力 | 出力 | キャッシュ(読/書) | 代表的上限 | 備考 |
---|---|---|---|---|---|
GPT‑5 | $1.25 | $10 | $0.125 / — | 40万 ctx / 12.8万 out | 価格・上限がバランス良い。Batch/Routerは別設計 |
Gemini 2.5 Pro | $1.25(≤20万) / $2.50(>20万) | $10(≤20万) / $15(>20万) | $0.31 / $0.31(≤20万) / $0.625 / $0.625(>20万) | 100万 ctx | 20万トークン超で単価が跳ね上がる点に注意 |
Claude Sonnet 4 | $3 | $15 | $0.30 / $3.75 | 20万 ctx | Tool Use強め。Batch/優先ティアあり |
-
ざっくり比較(3k in / 1k out想定の1リクエスト)
- GPT‑5 ≈ $0.0138 / Gemini(≤20万)≈ 同等 / Claude ≈ $0.0240
→ Claudeは約+74%高、ただし分解と素直さで回収できる場面がある。 - 20万トークン超のロング入力は、Geminiの単価が跳ねるため、分割戦略+キャッシュ前提で設計する。
- GPT‑5 ≈ $0.0138 / Gemini(≤20万)≈ 同等 / Claude ≈ $0.0240
モデル別:短評(実務の手触り)
GPT‑5
- 総合的な賢さ。コード/エージェントの終端責任を持たせやすい。
- Tool Useの段取りが上手く、並列/連鎖の制御も素直。
- 長文も安定。**出力の“型”**を守らせやすい(JSON/スキーマ)。
Gemini 2.5 Pro
- 回転速度×多モーダルでUI試作〜修正が速い。スクショ・Figma・動画の混在でも強い。
- 発散的アイデアは控えめ。Tool Use判断は弱めなので、人側でツール選択を指示する設計が吉。
- 100万トークンの器は魅力。ただし非常に長い入力では出力安定性が乱れやすい印象(後述の検証で要確認)。
Claude Sonnet 4
- 仕様化・長文要約・分割計画が堅い。素直で安全側。
- Tool Useは逐次分解→実行の粘りがあり、レビュー駆動改修と相性が良い。
- ロング文脈は20万トークンまでの設計が無難。足りない場合は分割+キャッシュで。
“長コンテキスト(≥128k)”と“出力安定性”をどう観るか
口コミで断定せず、チーム内で測る。以下の最小セットを毎四半期回すのがおすすめ。
-
ロング文脈読み取り(Needle-in-a-Haystack 派生)
- それぞれ 128k / 200k / 400k / 1M の入力で、位置を変えた“針”を埋め込む。
- 指標: 命中率, 回答一貫性(n=20反復・seed固定), 読取時間, コスト/命中。
-
出力安定性(構造化出力)
- 温度0/top_p固定/seed固定で n=30反復。
- 指標: 完全一致率, JSON妥当率, 要素レベル一致率, 逸脱再現率。
- 期待値(仮説): Gemini < GPT‑5 ≒ Claude。※実計測で検証。
-
Tool Use妥当性
- 5〜10個の代表タスクで正しいツール選択率、並列/再試行の適切さ、エラー復帰率を採点。
- 期待値(仮説): Claude ≥ GPT‑5 > Gemini(ただし事前にツールの役割を明示すれば差は縮む)。
具体タスクの使い分け(最新版)
タスク | 推奨モデル | 一言で |
---|---|---|
プロダクト中核(長期SLO・ガバナンス) | GPT‑5 | 総合力×運用の型(監査・権限・SLO)で中核に据えやすい |
ラピッドプロトタイピング/Web実装 | Gemini 2.5 Pro | 多モーダル+回転速度。試作→改善ループを最短化 |
大規模リファクタ/長尺仕様化 | Claude Sonnet 4 | 仕様化・要約・分解が堅い。素直で外さない |
フロント実装+発散レビュー | Gemini 2.5 Pro → GPT‑5で仕上げ | まず見える形に→最終の整合性確認はGPT‑5 |
エージェント運用(監査ログ必須) | GPT‑5 or Claude | 監査・権限・再現性の設計が楽 |
運用・アーキ設計のTips
- 分割前提でロングを扱う(チャンク+要約+キャッシュ)。Geminiの >20万単価は設計で踏み抜かない。
- “思考予算”をプロンプトで明示(GPT‑5の推論モード、Claudeの分割計画、Geminiは人間がツール指示)。
- フェイルセーフ: ツール失敗→縮退プロンプトで再試行。JSONスキーマは厳格に。
- 監査/権限: SSO/SCIM/監査ログは3者とも用意。プロダクト組み込みではポリシーを先に。
(付録)価格の読み方と小さな試算
-
典型(3k in / 1k out)
- GPT‑5 ≈ $0.0138 / Gemini(≤20万)≈ $0.0138 / Claude ≈ $0.0240
-
ロング入力(30万 in / 2k out)
- Geminiは入力が$2.50/MTokレンジに乗る。分割+キャッシュで抑制。
-
キャッシュ(繰返し多い要件定義など)
- 読み出しは GPT‑5: $0.125/MTok, Gemini: $0.31(≤20万)/$0.625(>20万), Claude: $0.30。辞書・仕様は必ずキャッシュ化。
最後に:このポストの使い方
- チーム内ベンチ(上の3テスト)を四半期ごとに回して数字を更新。
- 各モデルの強みを活かす工程配置を守るだけで、体感の生産性はかなり上がるはず。
変更ログ(2025-08-09)
- GPT‑5を主軸に “総合的な賢さ” として位置づけ直し。
- Geminiは試作の回転速度・多モーダルを強調。Tool Use判断は弱めと明記。
- Claudeは仕様化・素直さ・Tool Useの粘りを強調。
- 価格表とキャッシュ単価を追記。>20万トークンの単価変化を明示。
- 長コンテキスト/出力安定性の検証設計を追記。
Discussion