🎊

【プチアップデート】Windsurfで「GPT-5」が利用可能に

2025/08/16に公開

 はじめに先日、Windsurf の「Wave12」アップデートが発表されましたね。

ですが、今回は少し遅れて、Windsurf の「GPT-5」についての記事です。

 Windsurf でのアップデート2025/08/08 に、Windsurf から以下の X 投稿がありました。

https://x.com/windsurf/status/1953525284025815189
2025/08/16 現在、Windsurf で使用できる GPT-5 は以下のとおりです。
GPT-5 (high reasoning): 1 credit
GPT-5 (medium reasoning): Free
GPT-5 (low reasoning): Free
medium reasoning、low reasoning は無料で使えるのは良いですね。

high reasoning も 1 credit なので、積極的に使えると思います。

 GPT-5 の性能気になるところはやはり性能です。

Windsurf の公式 X 投稿にあるベンチマークは以下のとおりです。

「SWE Bench」というベンチマークでのスコアのようです。

Claude 4 Sonnet よりも優秀で、低creditで使えるということで、とても使い勝手が良さそうですね。
Claude Opus 4.1 と比べるとどうなのでしょうか。

少し調べてみました。

AI のベンチマークには詳しくありませんが、同じ SWEベンチマークで情報を集めました。



GPT-5 の方が n = 477 のベンチマークを使用していますが、どちらも「SWE-bench Verified」ベンチマークなので、大まかな比較は可能だろうという根拠のない推測のもと比較しています。（すみません……）

ちなみに、n はベンチマークの問題数です。

一般的な「SWE-bench Verified」は 500 問程度とされています。
数値だけ見ると、「Opus 4.1: 74.5%」「GPT-5: 74.9%」のように、Opus 4.1 を上回るようですが、大まかな比較であるため、大体同じくらいの性能が出ると捉えるのが妥当だと考えています。
もちろん、SWE ベンチマークだけでなく、本来はさまざまなベンチマークを同条件で比較するべきなので、一概にどちらが良いとは言えません。
とはいえ、すさまじい性能であることは分かると思います。

 参考
 まとめ今回の比較は大まかな前提に基づくものですが、1 credit で Claude Opus 4.1 を利用できると考えると、かなりうれしいですね。
個人的に、今までコーディングに際しては、Claude一択でした。ですが、今回の「GPT-5」はコーディングする際の選択肢として、挙がってくると思います。
今回のベンチマーク比較については賛否両論あると思いますが、何かあれば、ぜひご意見ください。
どこかでベンチマークについては、しっかり勉強しておかないといけないと感じました😅

GitHubで編集を提案

はじめに

Windsurf でのアップデート

GPT-5 の性能

参考

まとめ

Discussion