🐡

Claude 4.5 Sonnetは「同コストで成功率を押し上げる」――過去Sonnet／Opus／Cursor長コンテキストと徹底比較【2

2025/10/01に公開

結論

•	Claude 4.5 Sonnet（以下「4.5」）は、実務系コーディング＆長時間タスクで顕著な改善（SWE-bench Verified 77.2%／並列計算で82%・OSWorld 61.4%・30時間以上の自律運用）を示しつつ、APIの基本単価は従来Sonnetと据え置き（入力$3/100万Tok・出力$15/100万Tok）。

⇒ **「同じお金で成功率が上がる」**のが最大の価値。Cursor運用でもこの“実費連動”の恩恵を受けやすい。

⸻

根拠

•	ベンチでの伸長
•	公開値：SWE-bench Verified 77.2%（並列推論で82%）, OSWorld 61.4%。前年モデル群や従来Sonnetからコーディング×PC操作が大幅上振れ。  
•	持久力＝エージェント適性
•	30時間超の自律実行デモ／報道が相次ぎ、長い手順・中断再開・ツール操作を含む運用で強み。  
•	価格は据え置き
•	4.5のAPI単価はSonnet 4と同じ：入力$3／出力$15（≤200K）。>200Kは入力$6／出力$22.5。プロンプトキャッシュで最大90%節約、公称。  
•	Cursorのクレジット体系が“API実費”準拠
•	CursorはProで月$20分のAPI使用を同社が負担し、超過はモデルAPI原価で従量。したがって4.5＝Sonnet価格帯のまま、費用対効果の改善がそのまま反映される。最大1Mトークン級のMaxモードも案内されている。

⸻

比較と具体像

「4.5」vs 過去Sonnet（3.5／3.7／4）
• 性能
• 4.5：SWE-bench Verified 77.2%（82%）／OSWorld 61.4%／30h自律。
• Sonnet 4：従来より強力だが、4.5が実務系ベンチで上回る（特にPC操作・長時間）。
• Sonnet 3.7／3.5：価格が軽いわけではなく、4.5と同額のケースが多い（＝同コストで成功率差）。
• コスト（API・≤200K帯）
• 共通：入力$3／出力$15。>200K は入力$6／出力$22.5。キャッシュ（≤200K：Write $3.75／Read $0.30）でリトライ多めの開発が安くなる。
• 使いどころ
• SWE系課題・既存コード改修・テスト駆動修正・ブラウザ/CLI操作が絡む開発。「失敗→再試行」コストが相対的に下がるため、実効コスト（完了までの総額）で有利。
**Opus系（4／4.1）**との位置づけ
• 価格：Opus 4/4.1＝入力$15／出力$75でSonnetの5倍。4.5が同額のまま精度を伸ばしているため、“Opusでないと不可”な案件以外は4.5が費用対効果高。
• 性能ニュアンス：Opusは最上位推論（深い思考・難問）で依然強力だが、実務コーディングや連続タスクでは4.5のSWE/OSWorld/30h実績が魅力。用途で住み分け。
Cursor特有：長コンテキスト（“1M”相当）とクレジット消費
• 1Mトークン相当の長文脈
• AnthropicはSonnet 4/4.5に1Mトークン文脈を段階提供（APIのβフラグ／一部Tier条件）。Cursor側も Max Mode で“最大1M”級の長文脈を案内。長いコードベース取り回しに効く。
• 留意点：>200Kは長文脈料金（入力$6／出力$22.5）に切り替わるため、コスト跳ねやすい。分割投入＋キャッシュ活用が実務設計。
• クレジット消費の考え方（Cursor）
• Pro = 月$20ぶんの“API実費”相当を含む／超過は原価で従量。モデルを高額にするほど消費が早い（Opusは特に注意）。4.5はSonnet価格のため、同じ$20でも実行回数を確保しやすい。
• 実務Tips
• キャッシュ前提のプロンプト分割／再利用率を上げる（仕様・リポ構造・テストの定型をキャッシュ化）。
• >200Kを常用しない設計（要約→分割投入／段階的RAG）。
• 高難度だけ Opus、それ以外は4.5で回す“二段構え”。
ざっくり費用感（≤200K帯のイメージ）
• 1リクエスト＝入力10,000Tok＋出力5,000Tokなら、
• 入力 $0.03（= 10k/1M × $3）＋出力 $0.075（= 5k/1M × $15）⇒ 合計 ≈ $0.105。
• 月$20のCursor Pro含み分なら約190回が目安（入出力比・思考トークンで変動）。

⸻

まとめ

•	**4.5は「同コストで成功率アップ」**が主眼。コーディング／PC操作／長手順の実務で、4/3.7/3.5→4.5の移行は強く推奨。
•	Opusは最上位難問や厳密推論に温存し、日常の開発フローは4.5で回すのが総額最適。
•	CursorではAPI実費連動＋Max Mode（～1M）の特性を理解し、>200K帯は設計で抑える／キャッシュ徹底で費用対効果を最大化しよう。

⸻

出典・一次情報（主要）
• Anthropic 公式：4.5 発表（性能・価格据え置き）／価格ページ（>200K料金・キャッシュ）。
• ベンチ実績：SWE-bench Verified 77.2%（82%）、OSWorld 61.4%、30h運用。
• Cursor 公式：料金・クレジット仕様、Max Mode（～1M）。
• Opus 価格：Opus 4/4.1 の入力$15・出力$75。
• 1M文脈アップデート：Sonnet 4/4.5 の1Mトークン文脈（API β/一部Tier）。

結論

根拠

比較と具体像

まとめ

Discussion