🎊

【プチアップデート】Windsurfで「GPT-5」が利用可能に

に公開

はじめに

先日、Windsurf の「Wave12」アップデートが発表されましたね。
ですが、今回は少し遅れて、Windsurf の「GPT-5」についての記事です。

Windsurf でのアップデート

2025/08/08 に、Windsurf から以下の X 投稿がありました。
https://x.com/windsurf/status/1953525284025815189

2025/08/16 現在、Windsurf で使用できる GPT-5 は以下のとおりです。

  • GPT-5 (high reasoning): 1 credit
  • GPT-5 (medium reasoning): Free
  • GPT-5 (low reasoning): Free

Cascade で「GPT-5」の確認

medium reasoning、low reasoning は無料で使えるのは良いですね。
high reasoning も 1 credit なので、積極的に使えると思います。

GPT-5 の性能

気になるところはやはり性能です。
Windsurf の公式 X 投稿にあるベンチマークは以下のとおりです。
Windsurf の公式 X 投稿にあるベンチマーク

「SWE Bench」というベンチマークでのスコアのようです。
Claude 4 Sonnet よりも優秀で、低creditで使えるということで、とても使い勝手が良さそうですね。

Claude Opus 4.1 と比べるとどうなのでしょうか。
少し調べてみました。
AI のベンチマークには詳しくありませんが、同じ SWEベンチマークで情報を集めました。
GPT-5 の SWEベンチマーク
Claude Opus 4.1 の SWEベンチマーク

GPT-5 の方が n = 477 のベンチマークを使用していますが、どちらも「SWE-bench Verified」ベンチマークなので、大まかな比較は可能だろうという根拠のない推測のもと比較しています。(すみません……)
ちなみに、n はベンチマークの問題数です。
一般的な「SWE-bench Verified」は 500 問程度とされています。

数値だけ見ると、「Opus 4.1: 74.5%」「GPT-5: 74.9%」のように、Opus 4.1 を上回るようですが、大まかな比較であるため、大体同じくらいの性能が出ると捉えるのが妥当だと考えています。

もちろん、SWE ベンチマークだけでなく、本来はさまざまなベンチマークを同条件で比較するべきなので、一概にどちらが良いとは言えません。

とはいえ、すさまじい性能であることは分かると思います。

参考

まとめ

今回の比較は大まかな前提に基づくものですが、1 credit で Claude Opus 4.1 を利用できると考えると、かなりうれしいですね。

個人的に、今までコーディングに際しては、Claude一択でした。ですが、今回の「GPT-5」はコーディングする際の選択肢として、挙がってくると思います。

今回のベンチマーク比較については賛否両論あると思いますが、何かあれば、ぜひご意見ください。

どこかでベンチマークについては、しっかり勉強しておかないといけないと感じました😅

GitHubで編集を提案

Discussion