🧭

GPT‑5が出た後も“使い分け”が必要!? 私の3つの使い分け(2025年8月版)

に公開

はじめに

この記事は、以前の「モデル選定アップデート」を GPT‑5 / Gemini 2.5 Pro / Claude Sonnet 4 を前提に総入れ替えした実運用メモです。まずは結論、それから定量の目安も添えます。


まず結論:3つの役割分担

  1. プロダクトの中核(長期運用・“丸ごと任せたい”系) → GPT‑5

    • 理由: 総合的な賢さ(汎用力)とコーディング・エージェント動作の完成度。大規模運用のエコシステム(監査・権限・SLO設計)も揃っており、中核に据えやすい。
  2. ラピッドプロトタイピング/フロント実装・コーディングUX → Gemini 2.5 Pro

    • 理由: 回転速度とネイティブ多モーダルでUI試作〜改善の反復が速い。発想の初速は控えめ("アイデア力 0→0.01")だが、対話しながら形にする工程に非常に強い。※ Tool Useの意思決定は弱めなので過信しない。
  3. 大規模コード改修/長尺計画・仕様化(“読む・直す”が多い) → Claude Sonnet 4

    • 理由: 仕様化・長文要約・段階分解の安定感。Tool Useが強く、こちらの設計に素直に乗る。レビュー駆動のリファクタや長期計画を粘り強く回せる。

注: 3者とも強い。差は “使い心地の流儀”とコスト。最終的にはチームのワークフローに合わせた役割分担が効きます。


判断軸(再確認・定量付き)

観点 要点 代表的に効く場面 参考メモ
精度 推論の一貫性・分解力・Tool Useの適切さ 仕様化、調査・要約、段階的コード修正、依存の長いタスク 長コンテキスト精度の実測は別章参照
推論速度 初速・トークン処理効率・対話の回転 コーディング補助、UI実装、ライブなチャット Geminiは回転速度が武器/GPT‑5は総合力で遅くない
可用性 安定提供・課金/レート・ガバナンス/監査・SLO サービス組み込み、長期運用、審査対応 監査ログ・SSO/SCIM 等の型が3者とも整備
コスト 入力/出力単価、コンテキスト課金しきい値、キャッシュ 大量運用、ロングタスク 下の価格表を随時更新

主要モデルの価格と仕様(2025-08-09時点)

表示は USD / 100万トークン(MTok)。キャッシュは“読込/書込”。上限は公称。

モデル 入力 出力 キャッシュ(読/書) 代表的上限 備考
GPT‑5 $1.25 $10 $0.125 / — 40万 ctx / 12.8万 out 価格・上限がバランス良い。Batch/Routerは別設計
Gemini 2.5 Pro $1.25(≤20万) / $2.50(>20万) $10(≤20万) / $15(>20万) $0.31 / $0.31(≤20万) / $0.625 / $0.625(>20万) 100万 ctx 20万トークン超で単価が跳ね上がる点に注意
Claude Sonnet 4 $3 $15 $0.30 / $3.75 20万 ctx Tool Use強め。Batch/優先ティアあり
  • ざっくり比較(3k in / 1k out想定の1リクエスト)
    • GPT‑5 ≈ $0.0138 / Gemini(≤20万)≈ 同等 / Claude ≈ $0.0240
      → Claudeは約+74%高、ただし分解と素直さで回収できる場面がある。
    • 20万トークン超のロング入力は、Geminiの単価が跳ねるため、分割戦略+キャッシュ前提で設計する。

モデル別:短評(実務の手触り)

GPT‑5

  • 総合的な賢さ。コード/エージェントの終端責任を持たせやすい。
  • Tool Useの段取りが上手く、並列/連鎖の制御も素直。
  • 長文も安定。**出力の“型”**を守らせやすい(JSON/スキーマ)。

Gemini 2.5 Pro

  • 回転速度×多モーダルでUI試作〜修正が速い。スクショ・Figma・動画の混在でも強い。
  • 発散的アイデアは控えめ。Tool Use判断は弱めなので、人側でツール選択を指示する設計が吉。
  • 100万トークンの器は魅力。ただし非常に長い入力では出力安定性が乱れやすい印象(後述の検証で要確認)。

Claude Sonnet 4

  • 仕様化・長文要約・分割計画が堅い。素直で安全側。
  • Tool Useは逐次分解→実行の粘りがあり、レビュー駆動改修と相性が良い。
  • ロング文脈は20万トークンまでの設計が無難。足りない場合は分割+キャッシュで。

“長コンテキスト(≥128k)”と“出力安定性”をどう観るか

口コミで断定せず、チーム内で測る。以下の最小セットを毎四半期回すのがおすすめ。

  1. ロング文脈読み取り(Needle-in-a-Haystack 派生)

    • それぞれ 128k / 200k / 400k / 1M の入力で、位置を変えた“針”を埋め込む。
    • 指標: 命中率, 回答一貫性(n=20反復・seed固定), 読取時間, コスト/命中。
  2. 出力安定性(構造化出力)

    • 温度0/top_p固定/seed固定で n=30反復。
    • 指標: 完全一致率, JSON妥当率, 要素レベル一致率, 逸脱再現率。
    • 期待値(仮説): Gemini < GPT‑5 ≒ Claude。※実計測で検証。
  3. Tool Use妥当性

    • 5〜10個の代表タスクで正しいツール選択率、並列/再試行の適切さ、エラー復帰率を採点。
    • 期待値(仮説): Claude ≥ GPT‑5 > Gemini(ただし事前にツールの役割を明示すれば差は縮む)。

具体タスクの使い分け(最新版)

タスク 推奨モデル 一言で
プロダクト中核(長期SLO・ガバナンス) GPT‑5 総合力×運用の型(監査・権限・SLO)で中核に据えやすい
ラピッドプロトタイピング/Web実装 Gemini 2.5 Pro 多モーダル+回転速度。試作→改善ループを最短化
大規模リファクタ/長尺仕様化 Claude Sonnet 4 仕様化・要約・分解が堅い。素直で外さない
フロント実装+発散レビュー Gemini 2.5 Pro → GPT‑5で仕上げ まず見える形に→最終の整合性確認はGPT‑5
エージェント運用(監査ログ必須) GPT‑5 or Claude 監査・権限・再現性の設計が楽

運用・アーキ設計のTips

  • 分割前提でロングを扱う(チャンク+要約+キャッシュ)。Geminiの >20万単価は設計で踏み抜かない
  • “思考予算”をプロンプトで明示(GPT‑5の推論モード、Claudeの分割計画、Geminiは人間がツール指示)。
  • フェイルセーフ: ツール失敗→縮退プロンプトで再試行。JSONスキーマは厳格に。
  • 監査/権限: SSO/SCIM/監査ログは3者とも用意。プロダクト組み込みではポリシーを先に。

(付録)価格の読み方と小さな試算

  • 典型(3k in / 1k out)
    • GPT‑5 ≈ $0.0138 / Gemini(≤20万)≈ $0.0138 / Claude ≈ $0.0240
  • ロング入力(30万 in / 2k out)
    • Geminiは入力が$2.50/MTokレンジに乗る。分割+キャッシュで抑制。
  • キャッシュ(繰返し多い要件定義など)
    • 読み出しは GPT‑5: $0.125/MTok, Gemini: $0.31(≤20万)/$0.625(>20万), Claude: $0.30。辞書・仕様は必ずキャッシュ化。

最後に:このポストの使い方

  • チーム内ベンチ(上の3テスト)を四半期ごとに回して数字を更新。
  • 各モデルの強みを活かす工程配置を守るだけで、体感の生産性はかなり上がるはず。

変更ログ(2025-08-09)

  • GPT‑5を主軸に “総合的な賢さ” として位置づけ直し。
  • Geminiは試作の回転速度・多モーダルを強調。Tool Use判断は弱めと明記。
  • Claudeは仕様化・素直さ・Tool Useの粘りを強調。
  • 価格表とキャッシュ単価を追記。>20万トークンの単価変化を明示。
  • 長コンテキスト/出力安定性の検証設計を追記。

Discussion