🎊

【プチアップデート】Windsurf で「GPT-5-Codex」モデルが利用可能に

に公開

はじめに

先日の「code-supernova」に続き、「GPT-5-Codex」モデルが使えるようになりました。
新しく追加された「GPT-5-Codex」モデルについて、見ていきましょう。

Windsurf でのアップデート

2025/09/24に、Windsurf から下記の X 投稿がありました。
https://x.com/windsurf/status/1970549712551100523

有料ユーザーに対して一定期間、無料で提供されるようです。
(無料ユーザーでは 0.5 credit だそうです。Changelog に記載あり。)

自分の環境を確認してみると、
Windsurf で「GPT-5-Codex」の確認

ありましたね。X 投稿のとおり無料となっています。

「GPT-5-Codex」ですが、名前から察するにコーディングに特化していそうなモデルですね。
調べてみましょう。

GPT-5-Codex について

公式のニュースを確認してみると、下記のようなことが書いてありますね。

ニュースまとめ

モデルの概要

  • GPT-5 を、さらにエージェント型コーディング用に最適化したモデル
  • 現実世界のソフトウェアエンジニアリングの作業に焦点を当てて訓練された
    • 「現実世界のソフトウェアエンジニアリングの作業」とは、以下のような作業を指す:
      • ゼロからのフルプロジェクト構築
      • 機能とテストの追加
      • デバッグ
      • 大規模リファクタリングの実施
      • コードレビューの実施

主要な特徴

  • GPT-5 と同様に、素早いインタラクティブなセッションと、長時間の複雑なタスクの自律的な実行の両方に優れている
  • より制御しやすく、AGENTS.md の指示により忠実に従い、高品質なコードを生成する
    • AGENTS.md は Codex のエージェントに対する指示ファイル(Windsurf、Cursor のルールファイルに相当)
    • コードスタイルや整形に関する詳細な指示は不要で、必要なことを伝えるだけでよい

動的な思考時間の調整

  • タスクの複雑さに基づいて、思考に費やす時間を動的に調整
  • コーディングエージェントとして2つの重要なスキルを組み合わせている:
    • 開発者とのインタラクティブなセッションでのペアプログラミング
    • 長時間タスクの粘り強い自律実行
  • 結果として:
    • 小規模で明確に定義されたリクエストやチャット中は素早く応答
    • 大規模リファクタリングなど複雑なタスクではより長時間作業

パフォーマンスデータ

  • テストでは、大規模で複雑なタスクに対して7時間以上連続で自律動作することを確認
  • OpenAI 従業員のトラフィック分析(モデル生成トークン数による):
    • 下位10%:GPT-5 と比較して93.7%少ないトークンを使用
    • 上位10%:GPT-5 と比較して102.2%多いトークンを使用(推論、編集、テスト、反復により約2倍)

コードレビュー能力

  • コードレビューの実施と致命的な欠陥の発見に特化して訓練
  • 経験豊富なソフトウェアエンジニアによる評価結果:
    • 不正確なコメント:13.7%→4.4%に減少
    • 高重要度のコメント:39.4%→52.4%に増加
    • より重要な問題に焦点を当てた効果的なレビューを実現

推奨事項

  • Codex または類似環境でのエージェント型コーディングタスクにのみ使用を推奨
  • GPT-5 のような汎用モデルではなく、コーディング特化型モデル

ベンチマーク性能の比較

さて、気になるベンチマーク性能ですが、SWE-bench Verified ベンチマークで驚異の74.5%です。

GPT-5-Codex のベンチマーク

この記事で紹介した比較表を参考にすると下記のようになります。

モデル SWE-bench Verified(n=500)の値
Grok Code Fast 1 70.8%
Claude Opus 4.1 74.5%
Claude Sonnet 4 72.7%
GPT-5 72.8%
GPT-5-Codex 74.5%
Qwen3-Coder 69.6%

とうとう、Claude Opus 4.1 と並びましたね...
これは、Claude だけでなく、GPT もモデル選択肢として上がってくるのではないでしょうか...(GPT-5 の時点でも、十分 Claude の代わりとしての選択肢として、私の中で上がっていました。)

また、私は Claude Code も併用して使用していて、Codex もありかなと思ってきました...

すごいことになってきましたね...今までは Claude Code 一強だったのが、また変わってきそうですね...

そういえば、筆者は Claude Code について、ろくにドキュメントも読まずになんとなく使ってきた人なので、この際、Claude Code について深くリサーチしてみようかなと思います。
(リサーチ後に記事にしようと思います)

また、少し気になったのが、GPT-5 の数値です。
この記事では、n=477 の SWE-bench Verified の値を記載していたのに対し、今回は n=500 の値を記載しています。
74.9%(n=477)と72.8%(n=500)と2.1%下がっていますね。
74.9%はこのサイトの数値を参考。
(n はベンチマークのタスク数を表します)

やはり同じ条件下で実施しないと、微妙な違いが出てしまいますよね...
表を記載した記事に(n=477)と書いておけばよかった...

ふと思ったのですが、ベンダの各モデルをベンチする有名なサイトなどあったりするのかなと。もしあれば、そこの数値も参考にしたいですね。
今度調べておきます。

まあでも、大幅に数値が違うなんてこともないと思うので、目安には十分かと思います。

まとめ

前回の「code-supernova」に続き、新たなモデルが登場しました。
最近はソフトウェアエンジニアリングに特化したモデルの訓練時に、モデルの生成結果を開発者に評価してもらい、モデルを改良していくという記載を見るようになった気がします。(気がするだけかもしれないですが)

確かに、開発者がした評価をフィードバックすると、開発者の感性により近づいて、よりよい補完をおこなってくれそうですよね😄(AI の訓練とかよくわかりませんが...)

次は、Figma の MCP が使えるようになったようなので、そちらを紹介します。
では、また次回👋

GitHubで編集を提案

Discussion