🐙
Cursor: GPT 5.5 が優秀でコスパ最強
私は新しいモデルが発表されるたびに試しに使ってみていますが、ここ1ヶ月ほどはGPT 5.5だけを使っています。
モデルが優秀で難しい数学の問題を理解して解けるとかよりも、実際の自分のタスク、目的、スタイルに合ったちょうどいいモデルを探すのが大切かなと思います(例. 個人の日常業務では長時間のAgent的なタスクはあまり必要ない)。
(私はCursorが好きかつ既存コードに対する修正はこっちの方がやりやすいため、Codexやclaudeは基本使ってないです)

GPT-5.5 Medium でちょうど良い
ほぼ全てのタスクはGPT-5.5 Mediumで完結できており、High以上は今のところ私は使わなくて大丈夫な感じです。複数のリポジトリに跨っている大きめの既存のコードを読んで問題やバグをすぐに発見してくれる能力が格段に高い気がします。
最新のClaude Opus 4.8はまだ試せていませんが、Opus 4.7(特にHigh/Max, high-thinking設定)は遅いしトークンばかり浪費して全然正解に辿りつけず、結果コストばかりが高い感じがしていました。
それと比較すると、GPT-5.5 Mediumは速いし安いし、すぐに正解に辿り着くことが出来ており、現在はこれをデフォルトで利用しています。
Gemini?あれは現時点では使う価値があるとは思えません...
ベンチマークを調べてみる
日常業務で必要になる「デバッグ」「実コード修正」「エージェント的なコーディング能力」に関して、モデルのベンチマークを調べてみました。
最近は主に以下のベンチマークで比較されている様子で、これらはGitHubのissueを読んで、実際にコードを修正してテストを通す系の評価です。
これを見ると、GPT-5.5がOpus 4.7より大きく優位性がある感じには見えないですねぇ...

Discussion
同じ印象でちょっと驚いたぐらいです
共感しかない!
コメントありがとうございます!
私も同じ印象です。
Cursor独自のComposer2.5は試してみましたか?
コメントありがとうございます。Composer2.5はまだ試していません。評判は良さそうですが、実際どうですか?
私はアプリ開発より事務作業の助けに使うことが多いですが、コーディング以外でも割とよく考えてくれ、Fastモードはかなり応答速度が早くてストレスフリーです!
情報ありがとうございます。試してみます!
目的が明確な場合はgpt、漠然とした部分がある場合はopusですね。前者はIQが高く後者はEQが高い。
コメントありがとうございます。IQとEQという例えは結構しっくりきました。