🧭

GPT‑5が出た後も“使い分け”が必要！？私の3つの使い分け（2025年8月版）

2025/08/11に公開

 はじめにこの記事は、以前の「モデル選定アップデート」を GPT‑5 / Gemini 2.5 Pro / Claude Sonnet 4 を前提に総入れ替えした実運用メモです。まずは結論、それから定量の目安も添えます。

 まず結論：3つの役割分担プロダクトの中核（長期運用・“丸ごと任せたい”系） → GPT‑5

理由: 総合的な賢さ（汎用力）とコーディング・エージェント動作の完成度。大規模運用のエコシステム（監査・権限・SLO設計）も揃っており、中核に据えやすい。
ラピッドプロトタイピング／フロント実装・コーディングUX → Gemini 2.5 Pro

理由: 回転速度とネイティブ多モーダルでUI試作〜改善の反復が速い。発想の初速は控えめ（"アイデア力 0→0.01"）だが、対話しながら形にする工程に非常に強い。※ Tool Useの意思決定は弱めなので過信しない。
大規模コード改修／長尺計画・仕様化（“読む・直す”が多い） → Claude Sonnet 4

理由: 仕様化・長文要約・段階分解の安定感。Tool Useが強く、こちらの設計に素直に乗る。レビュー駆動のリファクタや長期計画を粘り強く回せる。
注: 3者とも強い。差は “使い心地の流儀”とコスト。最終的にはチームのワークフローに合わせた役割分担が効きます。

 判断軸（再確認・定量付き）

観点
要点
代表的に効く場面
参考メモ


精度
推論の一貫性・分解力・Tool Useの適切さ
仕様化、調査・要約、段階的コード修正、依存の長いタスク
長コンテキスト精度の実測は別章参照

推論速度
初速・トークン処理効率・対話の回転
コーディング補助、UI実装、ライブなチャット
Geminiは回転速度が武器／GPT‑5は総合力で遅くない

可用性
安定提供・課金/レート・ガバナンス/監査・SLO
サービス組み込み、長期運用、審査対応
監査ログ・SSO/SCIM 等の型が3者とも整備

コスト
入力/出力単価、コンテキスト課金しきい値、キャッシュ
大量運用、ロングタスク
下の価格表を随時更新


 主要モデルの価格と仕様（2025-08-09時点）表示は USD / 100万トークン（MTok）。キャッシュは“読込/書込”。上限は公称。


モデル
入力
出力
キャッシュ(読/書)
代表的上限
備考


GPT‑5
$1.25
$10
$0.125 / —
40万 ctx / 12.8万 out
価格・上限がバランス良い。Batch/Routerは別設計

Gemini 2.5 Pro
$1.25（≤20万） / $2.50（>20万）
$10（≤20万） / $15（>20万）
$0.31 / $0.31（≤20万） / $0.625 / $0.625（>20万）
100万 ctx
20万トークン超で単価が跳ね上がる点に注意

Claude Sonnet 4
$3
$15
$0.30 / $3.75
20万 ctx
Tool Use強め。Batch/優先ティアあり


ざっくり比較（3k in / 1k out想定の1リクエスト）
GPT‑5 ≈ $0.0138 / Gemini（≤20万）≈ 同等 / Claude ≈ $0.0240

→ Claudeは約+74%高、ただし分解と素直さで回収できる場面がある。
20万トークン超のロング入力は、Geminiの単価が跳ねるため、分割戦略＋キャッシュ前提で設計する。


 モデル別：短評（実務の手触り）
 GPT‑5総合的な賢さ。コード／エージェントの終端責任を持たせやすい。
Tool Useの段取りが上手く、並列/連鎖の制御も素直。
長文も安定。**出力の“型”**を守らせやすい（JSON/スキーマ）。

 Gemini 2.5 Pro回転速度×多モーダルでUI試作〜修正が速い。スクショ・Figma・動画の混在でも強い。
発散的アイデアは控えめ。Tool Use判断は弱めなので、人側でツール選択を指示する設計が吉。
100万トークンの器は魅力。ただし非常に長い入力では出力安定性が乱れやすい印象（後述の検証で要確認）。

 Claude Sonnet 4仕様化・長文要約・分割計画が堅い。素直で安全側。
Tool Useは逐次分解→実行の粘りがあり、レビュー駆動改修と相性が良い。
ロング文脈は20万トークンまでの設計が無難。足りない場合は分割＋キャッシュで。

 “長コンテキスト（≥128k）”と“出力安定性”をどう観るか口コミで断定せず、チーム内で測る。以下の最小セットを毎四半期回すのがおすすめ。
ロング文脈読み取り（Needle-in-a-Haystack 派生）
それぞれ 128k / 200k / 400k / 1M の入力で、位置を変えた“針”を埋め込む。
指標: 命中率, 回答一貫性（n=20反復・seed固定）, 読取時間, コスト/命中。
出力安定性（構造化出力）
温度0/top_p固定/seed固定で n=30反復。
指標: 完全一致率, JSON妥当率, 要素レベル一致率, 逸脱再現率。
期待値（仮説）: Gemini < GPT‑5 ≒ Claude。※実計測で検証。
Tool Use妥当性
5〜10個の代表タスクで正しいツール選択率、並列/再試行の適切さ、エラー復帰率を採点。
期待値（仮説）: Claude ≥ GPT‑5 > Gemini（ただし事前にツールの役割を明示すれば差は縮む）。

 具体タスクの使い分け（最新版）

タスク
推奨モデル
一言で


プロダクト中核（長期SLO・ガバナンス）
GPT‑5
総合力×運用の型（監査・権限・SLO）で中核に据えやすい

ラピッドプロトタイピング／Web実装
Gemini 2.5 Pro
多モーダル＋回転速度。試作→改善ループを最短化

大規模リファクタ／長尺仕様化
Claude Sonnet 4
仕様化・要約・分解が堅い。素直で外さない

フロント実装+発散レビュー
Gemini 2.5 Pro → GPT‑5で仕上げ
まず見える形に→最終の整合性確認はGPT‑5

エージェント運用（監査ログ必須）
GPT‑5 or Claude
監査・権限・再現性の設計が楽


 運用・アーキ設計のTips
分割前提でロングを扱う（チャンク＋要約＋キャッシュ）。Geminiの >20万単価は設計で踏み抜かない。

“思考予算”をプロンプトで明示（GPT‑5の推論モード、Claudeの分割計画、Geminiは人間がツール指示）。

フェイルセーフ: ツール失敗→縮退プロンプトで再試行。JSONスキーマは厳格に。

監査/権限: SSO/SCIM/監査ログは3者とも用意。プロダクト組み込みではポリシーを先に。

 （付録）価格の読み方と小さな試算
典型（3k in / 1k out）
GPT‑5 ≈ $0.0138 / Gemini（≤20万）≈ $0.0138 / Claude ≈ $0.0240


ロング入力（30万 in / 2k out）
Geminiは入力が$2.50/MTokレンジに乗る。分割＋キャッシュで抑制。


キャッシュ（繰返し多い要件定義など）
読み出しは GPT‑5: $0.125/MTok, Gemini: $0.31（≤20万）/$0.625（>20万）, Claude: $0.30。辞書・仕様は必ずキャッシュ化。


 最後に：このポストの使い方チーム内ベンチ（上の3テスト）を四半期ごとに回して数字を更新。
各モデルの強みを活かす工程配置を守るだけで、体感の生産性はかなり上がるはず。

 変更ログ（2025-08-09）GPT‑5を主軸に “総合的な賢さ” として位置づけ直し。
Geminiは試作の回転速度・多モーダルを強調。Tool Use判断は弱めと明記。
Claudeは仕様化・素直さ・Tool Useの粘りを強調。
価格表とキャッシュ単価を追記。>20万トークンの単価変化を明示。
長コンテキスト／出力安定性の検証設計を追記。

観点	要点	代表的に効く場面	参考メモ
精度	推論の一貫性・分解力・Tool Useの適切さ	仕様化、調査・要約、段階的コード修正、依存の長いタスク	長コンテキスト精度の実測は別章参照
推論速度	初速・トークン処理効率・対話の回転	コーディング補助、UI実装、ライブなチャット	Geminiは回転速度が武器／GPT‑5は総合力で遅くない
可用性	安定提供・課金/レート・ガバナンス/監査・SLO	サービス組み込み、長期運用、審査対応	監査ログ・SSO/SCIM 等の型が3者とも整備
コスト	入力/出力単価、コンテキスト課金しきい値、キャッシュ	大量運用、ロングタスク	下の価格表を随時更新

モデル	入力	出力	キャッシュ(読/書)	代表的上限	備考
GPT‑5	$1.25	$10	$0.125 / —	40万 ctx / 12.8万 out	価格・上限がバランス良い。Batch/Routerは別設計
Gemini 2.5 Pro	$1.25（≤20万） / $2.50（>20万）	$10（≤20万） / $15（>20万）	$0.31 / $0.31（≤20万） / $0.625 / $0.625（>20万）	100万 ctx	20万トークン超で単価が跳ね上がる点に注意
Claude Sonnet 4	$3	$15	$0.30 / $3.75	20万 ctx	Tool Use強め。Batch/優先ティアあり

タスク	推奨モデル	一言で
プロダクト中核（長期SLO・ガバナンス）	GPT‑5	総合力×運用の型（監査・権限・SLO）で中核に据えやすい
ラピッドプロトタイピング／Web実装	Gemini 2.5 Pro	多モーダル＋回転速度。試作→改善ループを最短化
大規模リファクタ／長尺仕様化	Claude Sonnet 4	仕様化・要約・分解が堅い。素直で外さない
フロント実装+発散レビュー	Gemini 2.5 Pro → GPT‑5で仕上げ	まず見える形に→最終の整合性確認はGPT‑5
エージェント運用（監査ログ必須）	GPT‑5 or Claude	監査・権限・再現性の設計が楽

はじめに

まず結論：3つの役割分担

判断軸（再確認・定量付き）

主要モデルの価格と仕様（2025-08-09時点）

モデル別：短評（実務の手触り）

GPT‑5

Gemini 2.5 Pro

Claude Sonnet 4

“長コンテキスト（≥128k）”と“出力安定性”をどう観るか

具体タスクの使い分け（最新版）

運用・アーキ設計のTips

（付録）価格の読み方と小さな試算

最後に：このポストの使い方

変更ログ（2025-08-09）

Discussion