GPT-5.2の変更点を急いでまとめてみた
びーぐるです🐶
この記事はmohikanz Advent Calendar 2025の12日目の記事です。
GPT-5.2が発表されたので、今回はGPT-5.1との比較を急いでまとめてみます。
急いでまとめたため、文面変更や追記、修正事項などが発生するかもしれません。内容に関して大きな変更があった場合には、都度報告します。
はじめに
2025年12月11日、OpenAIがGPT-5.2をリリースしました。GPT-5.1から、わずか1ヶ月でのアップデートとなります。
本記事では、前述のとおりGPT-5.1からGPT-5.2への変更点や進化した点に焦点を当てて解説します。
モデルラインナップ
GPT-5.2は3つのバリエーションで提供されます。
| モデル | 特徴 |
|---|---|
| Instant | 日常的な作業・学習向けの高速モデル |
| Thinking | 複雑なタスク向けの推論モデル |
| Pro | 最も高性能で信頼性の高いモデル |
GPT-5.1はProが後日のリリースとなりましたが、GPT-5.2ではInstant / Thinking / Proが同日に揃ってリリースされました。
ベンチマーク性能の比較
OpenAIが公開している主要ベンチマークの比較です。改善幅に関しては、特に記載がないものはGPT-5.1比となります。
| 評価項目 | 比較対象(公開値) | GPT-5.2 Thinking | 改善幅 |
|---|---|---|---|
| GDPval(知識労働タスク) | 38.8%(GPT-5) | 70.9% | +32.1pt |
| SWE-Bench Pro(コーディング) | 50.8% | 55.6% | +4.8pt |
| SWE-bench Verified | 76.3% | 80.0% | +3.7pt |
| GPQA Diamond(科学) | 88.1% | 92.4% | +4.3pt |
| AIME 2025(数学) | 94.0% | 100.0% | +6pt |
| ARC-AGI-2(抽象推論) | 17.6% | 52.9% | +35.3pt |
| FrontierMath Tier 1-3 | 31.0% | 40.3% | +9.3pt |
特にGDPvalとARC-AGI-2で爆発的な改善が見られます。
また、AIME 2025では100%の正答率を叩き出しました。
主な進化ポイント
1. 経済的価値のあるタスク(GDPval)
GPT-5.2の最大のアピールポイントはプロフェッショナルな知識労働での性能向上です。
GDPvalは44職種にわたる知識労働タスク(プレゼン資料作成、スプレッドシート操作、会計処理など)を評価するベンチマークです。
GPT-5.2は
- 70.9%のタスクで専門家と同等以上のパフォーマンス
- 専門家の11倍以上のスピード
- 専門家の1%未満のコスト
と専門家よりも大きくコストを下げつつ、専門家に近いアウトプットを実現しています。
投資銀行アナリスト向けスプレッドシートタスクでも、59.1%(GPT-5.1) → 68.4%(GPT-5.2)と+9.3%の上昇が見られます。
2. コーディング能力
SWE-Bench Proで新記録の**55.6%を達成しています。SWE-bench Verifiedでも80%**と過去最高です。
GPT-5.2の特徴として以下のようなものが挙げられます。
- フロントエンド開発での顕著な改善
- 3D要素を含む複雑なUI作成能力
- 本番コードのデバッグ、大規模リファクタリングの確実性向上
以下のようなプロンプトから、要件通りのリアルな波のシミュレーションを生成できるようです。
Create a single-page app in a single HTML file with the following requirements:
- Name: Ocean Wave Simulation
- Goal: Display realistic animated waves.
- Features: Change wind speed, wave height, lighting.
- The UI should be calming and realistic.
(日本語訳)
以下に示す要件を満たす単一のHTMLファイルからなるシングルページHTMLアプリを作成してください。
・名前: オーシャンウェーブシミュレーション
・ゴール: リアルなアニメーションの波を表示
・機能: 風速、波の高さ、ライティングを変更する
・UIは穏やかでリアルであること。
3. 信頼性の向上
ハルシネーションが30%(相対的に)減少したとのことです。
エラーが検出されなかった回答の割合として報告されているものは
- 検索機能あり 91.2% → 93.9%(外部検索で検証・補強できる条件でのエラーのない回答率)
- 検索機能なし 87.3% → 88.0%(モデル単体の知識・推論のみでのエラーのない回答率)
となっており、研究、分析、意思決定支援において、より信頼性の高い回答が期待できます。
ただし、ハルシネーションが完全に消滅したわけではないため、OpenAIも「GPT-5.2は完璧ではない。重要な情報はダブルチェックを」と主張しています。
4. ロングコンテキスト
GPT-5.2 Thinkingは長文の理解・推論で新記録を達成しました。
長文解析用のテストであるOpenAI MRCRv2で、OpenAIは「私たちが確認した中で初めてほぼ100%を達成した」と説明しています。
ロングコンテキストでの性能低下が起こらない実用的なメリットとして、以下のようなものが挙げられています。
- 長大な契約書、レポート、研究論文の分析
- 複数ファイルプロジェクトの一貫した理解
- 数十万トークンにわたる情報統合
また、新しい/compactエンドポイントにより、実効コンテキストウィンドウを拡張できるようになりました。
5. ビジョン(画像理解)能力
画像理解能力が向上し、エラー率が約半減しています。
| 評価項目 | GPT-5.1 Thinking | GPT-5.2 Thinking |
|---|---|---|
| CharXiv Reasoning(Pythonあり) | 80.3% | 88.7% |
| ScreenSpot-Pro(Pythonあり) | 64.2% | 86.3% |
特に改善された点として
- 画像内要素の位置把握(空間的配置の理解)
- チャート・グラフの推論
- ソフトウェアUI(スクリーンショット)の理解
が挙げられます。例えば、マザーボードの画像から各コンポーネントを識別し、適切なバウンディングボックスを付けるタスクで、GPT-5.1より格段に精度が向上しています。
6. ツール呼び出し(エージェント能力)
長期的なマルチターンタスクでのツール使用が改善されました。
| 評価項目 | GPT-5.1 Thinking | GPT-5.2 Thinking |
|---|---|---|
| Tau2-bench Telecom | 95.6% | 98.7% |
| Tau2-bench Retail | 77.9% | 82.0% |
| Scale MCP-Atlas | 44.5% | 60.6% |
実用例として、複雑なカスタマーサポートシナリオ(フライト遅延→乗り継ぎ失敗→宿泊手配→補償処理)を一貫して処理できるようになっています。
7. 科学・数学
GPT-5.2は科学研究の加速に寄与するかもしれません。
- GPQA Diamond(大学院レベルQ&A) 88.1% → 92.4%
- FrontierMath Tier 1-3 31.0% → 40.3%
- AIME 2025 94.0% → 100.0%
GPT-5.2 Proは統計学習理論の未解決問題に対して、研究者が検証可能な証明を提案したとのことです。
8. 抽象推論(ARC-AGI)
抽象的な推論能力を測定するARC-AGIベンチマークで大きな改善が見られます。
| 評価項目 | GPT-5.1 Thinking | GPT-5.2 Thinking | GPT-5.2 Pro |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 72.8% | 86.2% | 90.5% |
| ARC-AGI-2 (Verified) | 17.6% | 52.9% | 54.2% |
ARC-AGI-2で約3倍の改善、GPT-5.2 ProはARC-AGI-1で90%超え(史上初)を達成しています。
安全性の改善
メンタルヘルス関連の応答品質が大きく改善されました。
| 評価項目 | GPT-5.1 Instant | GPT-5.2 Instant | GPT-5.1 Thinking | GPT-5.2 Thinking |
|---|---|---|---|---|
| Mental health | 0.883 | 0.995 | 0.684 | 0.915 |
| Emotional reliance | 0.945 | 0.938 | 0.785 | 0.955 |
| Self-harm | 0.925 | 0.938 | 0.937 | 0.963 |
また、18歳未満のユーザー向けコンテンツ保護のための年齢予測モデルの展開も進んでいます。
API・料金の変更
価格比較(100万トークンあたり)
| モデル | 入力 | キャッシュ入力 | 出力 |
|---|---|---|---|
| GPT-5.1 | $1.25 | $0.125 | $10 |
| GPT-5.2 | $1.75 | $0.175 | $14 |
| GPT-5-Pro | $15 | - | $120 |
| GPT-5.2-Pro | $21 | - | $168 |
トークン単価は約40%上昇していますが、トークン効率が向上しているため同じ品質を達成するための総コストは下がる可能性があるとしています。
API名称
| ChatGPT | API |
|---|---|
| GPT-5.2 Instant | gpt-5.2-chat-latest |
| GPT-5.2 Thinking | gpt-5.2 |
| GPT-5.2 Pro | gpt-5.2-pro |
新機能
-
xhigh推論努力レベルの追加(GPT-5.2 Thinking/Pro) -
/compactエンドポイントによる実効コンテキスト拡張 - GPT-5.1、GPT-5、GPT-4.1はAPIでは現時点で廃止予定なし(十分な事前通知を約束)
一方でChatGPTでは、GPT-5.1は一定期間「レガシーモデル」として時限提供される、と案内されています。
GPT-5.1から継承された特徴
GPT-5.1で導入された以下の機能は、GPT-5.2にも継承されています。
- 温かみのある会話スタイル
- 適応的推論(質問の難易度に応じて思考時間を調整)
-
性格カスタマイズ機能(基本的なスタイルとトーンの選択肢)
- デフォルト、プロフェッショナル、フレンドリー、率直、個性的、無駄がない、探究心が強い、皮肉っぽい
まとめ:GPT-5.2は何が変わったのか
| 観点 | 変化 |
|---|---|
| 知識労働 | GDPvalで70.9%、専門家レベルを達成 |
| コーディング | SWE-Bench Verified 80%達成、フロントエンド強化 |
| 信頼性 | ハルシネーションが30%(相対値)減少 |
| 長文理解 | 256kトークンでほぼ100%の精度(史上初) |
| 画像理解 | エラー率約半減、空間把握力向上 |
| エージェント能力 | ツール呼び出し精度98.7%、複雑なワークフロー対応 |
| 抽象推論 | ARC-AGI-2で3倍改善 |
| 料金 | 約40%上昇(ただしトークン効率向上) |
GPT-5.2の最大の特徴は「プロフェッショナルな実務での実用性」です。
GPT-5.1が「より会話的で人間らしい」方向への進化だったのに対し、GPT-5.2は「より仕事ができる」方向への進化と言えるでしょう。
特にスプレッドシート作成、プレゼン資料作成、長文ドキュメント分析、エージェント的なマルチステップタスクなど、ビジネスユースケースでの性能向上が顕著です。
個人的な体感や感想
私も早速GPT-5.2を試してみましたが、記事を通しての誤字脱字チェックや構成・事実確認を行うことができました。
今までのモデルだと、記事全体をチェックすると高確率で途中のチェックが抜ける現象が発生していましたが、GPT-5.2は全体把握ができているように思えます。
これまでロングコンテキストといえばGeminiの十八番でしたが、この牙城を崩すようだとGPT-5.2はとても面白いモデルになってくるのではないでしょうか。
参考文献
Discussion