Claude 4.5 Sonnetは「同コストで成功率を押し上げる」――過去Sonnet/Opus/Cursor長コンテキストと徹底比較【2
結論
• Claude 4.5 Sonnet(以下「4.5」)は、実務系コーディング&長時間タスクで顕著な改善(SWE-bench Verified 77.2%/並列計算で82%・OSWorld 61.4%・30時間以上の自律運用)を示しつつ、APIの基本単価は従来Sonnetと据え置き(入力$3/100万Tok・出力$15/100万Tok)。
⇒ **「同じお金で成功率が上がる」**のが最大の価値。Cursor運用でもこの“実費連動”の恩恵を受けやすい。 
⸻
根拠
• ベンチでの伸長
• 公開値:SWE-bench Verified 77.2%(並列推論で82%), OSWorld 61.4%。前年モデル群や従来Sonnetからコーディング×PC操作が大幅上振れ。 
• 持久力=エージェント適性
• 30時間超の自律実行デモ/報道が相次ぎ、長い手順・中断再開・ツール操作を含む運用で強み。 
• 価格は据え置き
• 4.5のAPI単価はSonnet 4と同じ:入力$3/出力$15(≤200K)。>200Kは入力$6/出力$22.5。プロンプトキャッシュで最大90%節約、公称。 
• Cursorのクレジット体系が“API実費”準拠
• CursorはProで月$20分のAPI使用を同社が負担し、超過はモデルAPI原価で従量。したがって4.5=Sonnet価格帯のまま、費用対効果の改善がそのまま反映される。最大1Mトークン級のMaxモードも案内されている。 
⸻
比較と具体像
-
「4.5」vs 過去Sonnet(3.5/3.7/4)
• 性能
• 4.5:SWE-bench Verified 77.2%(82%)/OSWorld 61.4%/30h自律。
• Sonnet 4:従来より強力だが、4.5が実務系ベンチで上回る(特にPC操作・長時間)。
• Sonnet 3.7/3.5:価格が軽いわけではなく、4.5と同額のケースが多い(=同コストで成功率差)。 
• コスト(API・≤200K帯)
• 共通:入力$3/出力$15。>200K は入力$6/出力$22.5。キャッシュ(≤200K:Write $3.75/Read $0.30)でリトライ多めの開発が安くなる。 
• 使いどころ
• SWE系課題・既存コード改修・テスト駆動修正・ブラウザ/CLI操作が絡む開発。「失敗→再試行」コストが相対的に下がるため、実効コスト(完了までの総額)で有利。 -
**Opus系(4/4.1)**との位置づけ
• 価格:Opus 4/4.1=入力$15/出力$75でSonnetの5倍。4.5が同額のまま精度を伸ばしているため、“Opusでないと不可”な案件以外は4.5が費用対効果高。 
• 性能ニュアンス:Opusは最上位推論(深い思考・難問)で依然強力だが、実務コーディングや連続タスクでは4.5のSWE/OSWorld/30h実績が魅力。用途で住み分け。  -
Cursor特有:長コンテキスト(“1M”相当)とクレジット消費
• 1Mトークン相当の長文脈
• AnthropicはSonnet 4/4.5に1Mトークン文脈を段階提供(APIのβフラグ/一部Tier条件)。Cursor側も Max Mode で“最大1M”級の長文脈を案内。長いコードベース取り回しに効く。
• 留意点:>200Kは長文脈料金(入力$6/出力$22.5)に切り替わるため、コスト跳ねやすい。分割投入+キャッシュ活用が実務設計。 
• クレジット消費の考え方(Cursor)
• Pro = 月$20ぶんの“API実費”相当を含む/超過は原価で従量。モデルを高額にするほど消費が早い(Opusは特に注意)。4.5はSonnet価格のため、同じ$20でも実行回数を確保しやすい。 
• 実務Tips
• キャッシュ前提のプロンプト分割/再利用率を上げる(仕様・リポ構造・テストの定型をキャッシュ化)。
• >200Kを常用しない設計(要約→分割投入/段階的RAG)。
• 高難度だけ Opus、それ以外は4.5で回す“二段構え”。 -
ざっくり費用感(≤200K帯のイメージ)
• 1リクエスト=入力10,000Tok+出力5,000Tokなら、
• 入力 $0.03(= 10k/1M × $3)+出力 $0.075(= 5k/1M × $15)⇒ 合計 ≈ $0.105。
• 月$20のCursor Pro含み分なら約190回が目安(入出力比・思考トークンで変動)。 
⸻
まとめ
• **4.5は「同コストで成功率アップ」**が主眼。コーディング/PC操作/長手順の実務で、4/3.7/3.5→4.5の移行は強く推奨。
• Opusは最上位難問や厳密推論に温存し、日常の開発フローは4.5で回すのが総額最適。
• CursorではAPI実費連動+Max Mode(~1M)の特性を理解し、>200K帯は設計で抑える/キャッシュ徹底で費用対効果を最大化しよう。 
⸻
出典・一次情報(主要)
• Anthropic 公式:4.5 発表(性能・価格据え置き)/価格ページ(>200K料金・キャッシュ)。 
• ベンチ実績:SWE-bench Verified 77.2%(82%)、OSWorld 61.4%、30h運用。 
• Cursor 公式:料金・クレジット仕様、Max Mode(~1M)。 
• Opus 価格:Opus 4/4.1 の入力$15・出力$75。 
• 1M文脈アップデート:Sonnet 4/4.5 の1Mトークン文脈(API β/一部Tier)。 
Discussion