GPT-5 / GPT-5.1 / GPT-5.2 の変更点:モデル選択、パラメータ、プロンプト
はじめに
私はこれまでGPT-4o を中心にシステム開発をしてきて、「そろそろ GPT-5 に置き換えよう」と軽い気持ちで考えていました。しかし実際にガイドを読んでみると、GPT-5 系は “単なる上位互換” ではなく、モデルの性質やプロンプトの書き方、ツールまわりの前提がこれまでと結構違うことに気づきました。さらに GPT-5.1 が登場し、精度も振る舞いもまた一段階変わっています。
自分自身まだ完全に使いこなしているわけではありませんが、4o から 5.x に移行しようとしたときに「ここは事前に知っておくべきだな」と感じた点を整理しておきたいと思います。
1. モデルのラインナップ
GPT-4o → GPT-5/5.1 は単純な上位互換ではなく、モデルの系統そのものが再整理されています。
加えて、GPT-5 と GPT-5.1 の関係も “そのままの後継”や”単なるiteration”ではない と明確に説明されています。
そのほか特に注意したいのは、
- GPT-5/5.1 ではモデルが「速いモデル」と「深く考えるモデル」の2系統に分かれている
- API のモデル名(alias)と System Card のモデル名が違う
- 推論の強さを none(minimal) / medium / high のように明示的に指定する必要がある
という点です。
GPT-5.2 モデルファミリー
| モデル名 / API alias | System card の表記 | 従来モデル (移行元) | 説明 |
|---|---|---|---|
| gpt-5.2 | gpt-5.2-thinking | gpt-5.1, gpt-5, o3 (reasoning=medium/highを推奨), GPT-4.1 (reasoning=noneを推奨) |
専門的な業務やエージェントのワークロード向けに設計された最新の旗艦モデル。複雑な推論、広範な知識、およびコード量の多い/マルチステップのエージェント的タスクに最適。より高い精度、強力な指示順守、複雑なワークフローでの規律ある実行を実現するように設計されている。GPT-5.1の差し替え可能な後継モデルとして意図されており、長文コンテキストの理解、エージェントによるツール呼び出し、Visionの分野で大幅な進化を遂げた。デフォルトの推論設定はnoneである。品質が最優先となるタスク向けに、新しい推論設定「xhigh」に対応している。 |
| gpt-5.2-chat-latest | gpt-5.2-instant | gpt-5.1-chat-latest | 日常の仕事や学習に役立つ高速で信頼性の高いモデル。情報探索、手順説明、技術文書作成、翻訳といった領域で明確な改善を示している。GPT-5.1 Instantで導入された温かみのある対話トーンを継承している。 |
| gpt-5.2-pro | — | gpt-5-pro (推定) | 高品質な回答が求められる難しい質問に適した、OpenAIで最も高度かつ信頼性の高いモデル。より多くの計算資源を使用して、より深く考えることで、一貫してより良い回答を提供する。初期テストでは、重大なエラーの減少や、プログラミングなどの複雑な領域における性能向上が確認されている。品質が最優先となるタスク向けに、新しい推論設定「xhigh」に対応している。 |
補足情報:
- GPT-5.2 のガイドには、gpt-5-mini および gpt-5-nano モデルの利用が推奨されるユースケースについて、以下のような情報が記載されています。
- gpt-5-mini は、コスト最適化された推論およびチャットで速度、コスト、能力のバランスをとることが求められるときに推奨されています。
- gpt-5-nano は、高いスループットを要するタスク、特にシンプルな指示順守や分類が必要なときに推奨されています
- これらの小型モデルは、特に旧世代の小型モデル(o4-mini または gpt-4.1-mini、および gpt-4.1-nano)からの移行先として、プロンプトチューニングを行った上での利用が推奨されています。
- Codexについて言及している箇所では、「GPT‑5.2 は Codex でもそのまま利用できますが、今後数週間以内に Codex 向けに最適化した GPT‑5.2 のバージョンも公開する予定です」と記載されており、現時点では gpt-5.1-codex-max が Codex の主要モデルであることが示されています。
GPT-5.1 モデルファミリー
| モデル名 / API alias | System card の表記 | 従来モデル (移行元) | 説明 |
|---|---|---|---|
| gpt-5.1 | gpt-5.1-thinking | gpt-5 / gpt-4.1 / o3 | 旗艦の“Thinking”モデル。複雑な推論、広範な知識、およびコード量の多い/マルチステップのエージェント的タスクに最適であると記載されている。GPT-4.1からの移行にはnoneのリーズニング設定、o3 からの移行にはmediumまたはhighのリーズニング設定が推奨。 複雑なタスクではhighのリーズニング設定が推奨。 |
| gpt-5.1-chat-latest | gpt-5.1-instant | gpt-5-chat | 従来のチャットモデルの改良版。高速チャット・低遅延向け。従来のチャットモデルよりも会話的で、より温かみがあり、より的確に指示に従えるように進化した。適応的推論機能により、難しい質問に対して応答前に考えることができる。 |
| gpt-5.1-codex | — | gpt-5-codex | コード処理特化。CodexまたはCodexライクな環境でのエージェント的コーディングタスクのために特別に設計された。apply_patch や shell などの新しいツールと組み合わせて使用される。 |
| gpt-5.1-pro | — | gpt-5-pro | 企業向け高性能版(今後提供予定)。 |
GPT-5 モデルファミリー
| モデル名 / API alias | System card の表記 | 従来モデル (移行元) | 説明 |
|---|---|---|---|
| gpt-5-chat | gpt-5-main | gpt-4o | 高スループットの高速チャットモデル。 |
| [NA] | gpt-5-main-mini | gpt-4o-mini | main のミニ版。 |
| gpt-5 | gpt-5-thinking | o3 | 深い推論を行う思考モデル。 |
| gpt-5-mini | gpt-5-thinking-mini | o4-mini | thinking の小型版。軽量推論モデル。コスト最適化された推論とチャット向けで、スピード、コスト、能力のバランスを取ります。小型モデルは、より明確に定義されたタスクでより優れた性能を発揮する傾向があるとされる。 |
| gpt-5-nano | gpt-5-thinking-nano | gpt-4.1-nano | 超高スループット向け。シンプルな指示追従や分類などのタスクに最適とされる。 |
| gpt-5-pro | gpt-5-thinking-pro | o3-pro | thinking 系の高性能版で並列テスト時計算を採用。 |
GPT-5とGPT-5.1およびGPT-5.2の主な違い
* GPT-4.1の移行先としての推奨
GPT-5ファミリーの場合はGPT-5-chatが推奨され、GPT-5.1およびGPT-5.2の場合はThinkingモデルのnoneのリーズニング設定が推奨されています。
* リーズニングモードの最小設定値
GPT-5.1から、低遅延インタラクションのために新しいリーズニングモードnoneが導入されました。
GPT-5の最低設定はminimalでしたが、GPT-5.1/GPT-5.2の最低設定はnoneでモデルに推論トークンを一切使用しないように強制します。
* リーズニングモードの最大設定値
GPT-5.2から、5つ目の推論設定xhighが導入されました。gpt-5.2 (Thinking) および gpt-5.2-pro の両方で、品質が最優先となるタスク向けに、xhighに新たに対応しています。Codexモデルであるgpt-5.1-codex-maxもxhighをサポートしています
* リーズニングモードのデフォルト設定値
APIにおいては、GPT-5のデフォルトのリーズニング設定はmediumで、GPT-5.1/GPT-5.2 のデフォルト設定は noneです。
2. パラメータ
2-1. リーズニングモード
GPT-5から、新しい リーズニングモード (パラメータ名: reasoning.effort) が導入されました。
このパラメータは、モデルが応答を生成する際にどれだけの思考時間や深さを費やすか、どれだけの推論トークンを生成するかを制御するための主要な機能で、モデルの知性、信頼性、および思考時間を制御するために使用されます。
モード
| モード | 概要 | 動作 | 用途 | デフォルト |
|---|---|---|---|---|
| none | 低遅延のためにGPT-5.1から導入された新しいモード。 GPT-5の場合はminimalを指定。 |
モデルに推論トークンを一切使用しないように強制。 | 思考を深く必要としない低遅延なユースケースに最適で、GPT-4.1などの非推論モデルと類似した振る舞いをする。 | GPT-5.1/GPT-5.2のデフォルト |
| low | スピードと少ないトークン消費を優先。 | - | - | - |
| medium |
highよりも速く、より正確な思考時間の調整を行う。 |
- | 中程度の複雑さのタスクやo3から移行する際の開始点として推奨される。 | GPT-5 のデフォルト |
| high | 複雑なタスクのために設計されており、知性と信頼性が速度よりも重要である場合に推奨される。 | モデルは持続的であり、オプションを探索し、その作業をチェックすることで信頼性を最大化。(*以下に詳細を記載します) | コード量の多い/難しい/マルチステップのエージェント的タスク | - |
| xhigh | GPT-5.2で新たに追加された推論設定で、利用可能な最大値。 | より深い推論のために最も多くの計算資源を使用し、一貫してより良い回答を提供する。 | 品質が最優先となるタスク向けに、GPT-5.2、GPT-5.2-pro、およびGPT-5.1-codex-maxで対応。 | - |
深い推論の特徴
リーズニングモードが high の場合、モデルは回答を導き出すためにより多くの推論トークンを生成します。この「思考」プロセスは、以下の3つの主要な要素があると説明されています。
また、プロンプトを用いて、持続性(persistence)と完全性の重要性を強調することが有効であると推奨されています。
* 持続的である (Persistent)
タスクが複雑で困難な場合でも、途中で諦めたり、不完全な結果で終了したりすることを避ける性質です。複雑なマルチステップのエージェント的タスクやコーディングタスクにおいて、モデルはゴールに到達するまで、積極的にコンテキストを収集し、計画し、実行し、テストし、洗練するという一連のプロセスを続行します。
* オプションを探索する (Exploring Options)
単一の解決策に飛びつくのではなく、複数の可能性のある解決策やアプローチを考慮するプロセスです。複雑な問題に直面した際、モデルは内部的にさまざまなパスやアプローチを比較検討し、最も信頼性の高い解決策を選択しようとします。
* 作業をチェックすることで信頼性を最大化する (Checking its Work to Maximize Reliability)
最終的な回答をユーザーに提示する前に、自己検証(self-verification) を行うプロセスです。モデルは、生成したコードや解決策が、元のタスクの制約や要件をすべて満たしているかを確認します。不確実性がある場合、モデルはツール呼び出し(tool calls) を通じてシステムを検査したり(shell ツールなど)、関連する情報を検索したり(web_search ツールなど)、計画の次のステップを実行したりします。これにより、エラー率が減少し、信頼性が最大化されます。
推論の適応性(Adaptive Reasoning)
GPT-5.1モデルは、このリーズニング機能で、適応的推論(Adaptive Reasoning)能力を向上させています。
• GPT-5.1 Instant: 従来のチャットモデルよりも改良されており、必要に応じて「応答する前に考える」適応的推論を行うことができます。
• GPT-5.1 Thinking: 質問内容に応じて思考時間をより正確に調整します。シンプルなタスクにはより少ないトークンで迅速に思考を完了させ、複雑なタスクには時間をかけて粘り強く取り組みます。その結果、簡単なタスクでは速度が向上し、難しいタスクでは信頼性が向上します。
2-2. 冗長性
GPT-5/5.1は、 冗長性に関するパラメータ (パラメータ名: text.verbosity) も導入されています。このパラメータは、モデルが生成する出力トークンの量と詳細さを制御するために使用され、モデルの出力が簡潔であるか、または詳細な説明を含むかを調整します。
冗長性を下げる、つまり出力トークン量を減らすと、全体の遅延を削減することができます。
このパラメータは推論過程(reasoning)の構造には大きく影響しませんが、推論結果をどの程度省略せずに文章化するかを最終段階で調整します。このため、回答の品質が向上する場合もあれば、使用事例によっては品質低下する場合もあるとされています。
設定値
以下の3つの設定値が用意されています。
-
high: 文書を徹底的に説明する場合や、広範なコードのリファクタリングを実行する場合など、詳細な説明が必要な場合に使用されます。 -
medium: GPT-5/5.1のデフォルト設定です。 -
low: 簡潔な回答や、SQLクエリのようなシンプルなコード生成が必要な状況に最適です。
このパラメータについてはコード生成における効果が紹介されています。
medium および high の場合は、インラインの説明を含む、より長くより構造化されたコードが生成され、low の場合は、最小限の解説で、より短く簡潔なコードが生成される、とのことです。
プロンプトによる制御
text.verbosity パラメータは、システムプロンプトレベルで一般的なトークン範囲を定義しますが、実際の出力は柔軟性があり、開発者やユーザーのプロンプトによる指示での調整も推奨されています。
例えば、APIで low に設定した後でも、プロンプトで冗長性を制御して出力の長さを調整できます。
また、GPT-5.1の出力が時々冗長になる可能性があるため、プロンプトで目的の出力詳細を明示的に指示することが推奨されています。
2-3. 廃止されたパラメータ
従来のtemperature、top_p、logprobsは廃止されました。代替として上記で紹介した新しいパラメータを使う旨がガイドされています。
3. プロンプト
GPT-5およびGPT-5.1を対象にそれぞれプロンプトガイドが出ています。これらのガイドは、プロンプト設計の一般的なベストプラクティスを網羅的にカバーするものではなく、GPT-5およびGPT-5.1の性能を最大限に引き出すためのプロンプト設計に焦点があてられています。
これらのガイドをもとに、GPT-5/5.1に共通する部分、それぞれ固有の部分の観点、でまとめます。
具体的な書き方は参考文献を参照してください。
3-1. GPT-5/5.1共通のガイドライン(旧モデルとの違い)
Responses APIの利用と推論の再利用
- Responses APIを使用することが強く推奨されており、これによりエージェントフローの改善、コスト削減、トークン使用効率の向上が実現します。
- 特に新しいツールを使用する際に重要とされています。
- Responses APIを使用し、previous_response_id を渡すことで、モデルが以前の推論トレースを参照できるようになり、CoT(思考の連鎖)トークンを節約し、ツール呼び出しのたびに計画を再構築する必要がなくなり、レイテンシとパフォーマンスの両方が向上します。
指示遵守と矛盾の回避
- GPT-5/5.1は非常に注意深く指示に従うため、矛盾した曖昧なプロンプトを含むと、他のモデルよりも悪影響が大きくなります。これは、矛盾を解決するために推論トークンを浪費してしまうためです。
- これらの矛盾を解消することで推論効率が大幅に改善されます。矛盾する指示がないか確認し、指示を明確にすることが重要です。
エージェントの自律性(Persistence)と終了条件の明確化
- エージェントの自律性を高め、ツール呼び出しの持続性を高めたい場合は、以下の点に留意したプロンプトを使用することが推奨されています。
◦ ユーザーのクエリが完全に解決されるまで継続し、ターンを終了してユーザーに戻さない。
◦ 不確実性に遭遇しても、リサーチや推論を行い、最も合理的なアプローチを決定して続行する。
◦ 人間(ユーザー)に確認や明確化を求めず、最も合理的な仮定で進み、行動を終えた後にユーザーの参照用に文書化する。 - エージェントタスクの停止条件、安全なアクションと危険なアクションの区別、およびモデルがユーザーに引き継ぐことが許容されるタイミングを明確に定義することが、エージェントの精度に役立ちます。
- モデルがタスクを完了するまで持続し、不必要なフォローアップの質問を避けるよう促すことで、完全な解決を促すことができます。
メタプロンプティング
- モデル自体をメタプロンプターとして使用し、プロンプトの最適化(望ましい挙動を引き出すための追加要素や、望ましくない挙動を防ぐための削除要素)を行うことでよい結果が得られたとされています。
- GPT-5.1のガイドでは、失敗の診断とプロンプトの修正を分離した、構造化された2ステップのアプローチ(ステップ1:失敗の診断、ステップ2:プロンプトの修正案の提案)が推奨されています。
3-2. GPT-5固有のガイドライン/特性
エージェントのデフォルトの挙動
- GPT-5は、デフォルトで徹底的かつ包括的にコンテキストを収集し、正確な回答を生成するように訓練されています。
- 積極性の制御(Eagerness)
◦ 積極性を減らしたい場合、reasoning_effort を下げたり、探索を並列化し行動可能になり次第停止するなどの明確な基準をプロンプトで定義したりすることが推奨されます。
◦ コンテキスト収集のステップを短くするために、モデルが不確実性の下でも続行できるようなエスケープハッチ(例:「完全に正しくなくても」)を明示的に提供することが役立つとされています。
推論モード
- GPT-5で
minimalの推論レベルが導入されました。これは、推論モデルの利点を享受しつつ、レイテンシを重視するユーザー向けの最速オプションです。 -
minimal推論でのパフォーマンスを最大化するには、GPT-4.1と同様のパターンが推奨されています。具体的には、最終回答の開始時に思考プロセスを要約する短い説明を要求すること、ツールのプリアンブルを徹底的かつ記述的に要求すること、エージェントの持続性リマインダーを挿入すること、計画をプロンプトで促すことなどが示されています。
冗長性(Verbosity)制御
- GPT-5では、推論の長さではなく、モデルの最終回答の長さに影響を与える新しいAPIパラメータverbosityが導入されました。
- 特定のコンテキストにおいて、verbosityのグローバル設定を変更したい場合、自然言語(プロンプト)による冗長性の上書き(例:全体的な冗長性を低く設定しつつ、コーディングツールに対してのみ高い冗長性を指定)に対応するように訓練されています。
ツール・プリアンブル
- GPT-5は、より良い対話型ユーザー体験のために、ツール呼び出し中に、ツール・プリアンブルメッセージを通じて明確な事前の計画と一貫した進捗状況の更新を提供するように訓練されています。
3-3. GPT-5.1固有のガイドライン/特性
モデルの特性と効率性
- GPT-5.1は、GPT-5と比較してプロンプトの難易度に対してより良く調整されており、簡単な入力に対しては消費するトークンが大幅に少なくなり、困難なタスクはより効率的に処理されます。
- GPT-5.1は、推論トークン消費が改善された反面、時に過度に簡潔になり、回答の完全性を犠牲にして途中で終了してしまう傾向があるため、プロンプトで持続性と完全性の重要性を強調することが有用です。
新しい推論モードの導入
- GPT-5.1は、新しい推論モード
noneが導入され、minimalがなくなりました。 -
noneモードは、モデルに推論トークンを一切使用させないように強制し、GPT-4.1やGPT-4oなどの以前の非推論モデルにより近くなります。 - このモードでは、Web検索やファイル検索などのツールや、カスタム関数呼び出しのパフォーマンスが大幅に向上します。
- GPT-4.1などの非推論モデルからの移行には、GPT-5.1の
none推論モードが適しています。
スティアビリティと出力制御の強化
* パーソナリティの形成
GPT-5.1は、パーソナリティ、応答スタイル、トーン、リズムの制御においてよりステアリング可能であり、特に顧客対応エージェントで感情的知性を反映させることが重要視されています。
* 具体的な長さの遵守
GPT-5.1は、具体的な長さのガイダンス(例:小さな変更には2〜5文、コードスニペットの制限など)に非常によく従うため、出力のコンパクト化が容易になりました。
* ユーザーアップデート(User Updates)
- GPT-5のツール・プリアンブルは、GPT-5.1ではユーザーアップデートと呼ばれ、頻度、冗長性、トーン、内容の4つの主要な軸で調整できるようになりました。
- 具体的な頻度として、6実行ステップごとまたは8ツール呼び出しごとにアップデートを投稿するなど、明確なガイダンスが提供されています。
* 並列処理の効率化
GPT-5.1は並列ツール呼び出しをより効率的に実行し、並列ツールの使用を奨励するプロンプトが有効です。
* プランニングツールの推奨
長期実行タスクでは、モデルが実行の進捗を追跡できるように、プランニングツールを実装し、それを使用することをプロンプトで強制することが推奨されています
3-4. プロンプトのフォーマット
GPT-5 および GPT-5.1 の公式ガイドでは、プロンプトの構造化のために XMLタグのような形式を使用する一方で、最終出力の可読性向上には Markdown を使用するという使い分けが示されています。
XML形式のタグ
XMLタグのような <tag_name> ... </tag_name> 形式は、モデル内部の挙動・ロジック・ルールセットを制御するために使用されています。
| 目的 | フォーマット/タグの役割 | 出典 |
|---|---|---|
| 指示遵守の向上 |
<[instruction]_spec> のような構造化されたXMLスペックを使用することで、プロンプトに対する指示遵守が向上する。 |
Cursor社のテストで確認された。 |
| エージェントの挙動制御 | モデルの積極性(探索深度)や持続性などエージェント動作特性のルールを明示的に制御するタグを使用。 | ガイド内のエージェント制御プロンプト事例 |
| コーディングルールの体系化 | エンジニアリング原則、フロントエンドスタック、UI/UXのベストプラクティスを <code_editing_rules> などに構造化して提供。 |
ガイド内のコード編集ルール事例 |
| 出力制約の定義 | 応答スタイル、詳細度、含めるべき情報、禁止事項などを <final_answer_formatting> や <output_verbosity_spec> により制約。 |
出力フォーマット仕様例 |
| メタプロンプティング |
<system_prompt> や <failure_traces> 内にプロンプト全体をダンプし、失敗推定や原因分析を促す。 |
自己反省プロンプトの利用例 |
| ツールの使用規則 | 予約ツールなど、ツールの使用条件や欠落情報の問い合わせ方法を <reservation_tool_usage_rules> で定義。 |
ツール使用ガイドライン |
| プランニングの管理 | 長期タスクでモデルに計画作成・更新を行わせるため <plan_tool_usage> を使用。 |
プランニング仕様の利用例 |
Markdown形式
モデルの内部制御には使わず、ユーザーに返す最終回答の可読性・構造化のために使用されています。
| 目的 | フォーマット/要素の役割 | 出典 |
|---|---|---|
| 最終回答の可読性向上 | ユーザー向け出力に階層的Markdownを使用して読みやすくする。 | Markdown使用例 |
| 互換性の維持 | GPT-5のデフォルトはMarkdown非使用。Markdownを使いたい場合はプロンプトで明示的に要求する必要がある。 | GPT-5 API ガイド |
| コードやエンティティの正しい引用 | ファイル名・関数名などはバッククォート、コードはコードフェンス ``` を使用。 | 出力フォーマット仕様 |
| 意味的に正しいMarkdownのみ使用 | 過剰な装飾は禁止し、インラインコード、リスト、テーブルなど意味のあるMarkdownのみ使用。 | Markdown使用の推奨事項 |
| コードの視覚的制約(GPT-5.1) | 箇条書き中のリテラルキーワードはモノスペースのみ、** 太字との併用は禁止。 |
GPT-5.1 フォーマット仕様 |
ユーザーに返す最終回答のフォーマットの注意点
- GPT-5のデフォルトでは、アプリケーションの互換性を保つために、最終回答をMarkdownでフォーマットしません。最終回答で階層的なMarkdownを使用するには、プロンプトで以下の指示を与えることが成功しています。
◦ Markdownは意味的に正しい場合にのみ使用する(例:inline code、code fences、リスト、テーブル)。
◦ アシスタントメッセージでMarkdownを使用する場合、ファイル名、ディレクトリ名、関数名、クラス名をフォーマットするためにバッククォートを使用する。 - 長い会話の中でMarkdownの指示遵守が低下することがある場合、ユーザーメッセージ3〜5通ごとにMarkdownの指示を追記することで、一貫性を維持できることが確認されています。
おわりに
GPT-4oからGPT-5/5.1への移行時に押さえておくべきポイントを整理しました。
今回の調査を通じて痛感したのは、「上位モデルに切り替えるだけで性能が上がる」というこれまでのやり方は通用しないということです。
GPT-5/5.1では、モデルの系統やAPIパラメータ、推論モードの使い分け、Responses APIを前提とした新しいプロンプト設計など、開発者側が積極的に"設計"してはじめて性能を引き出せる仕組みになっています。
一方で、うまく使いこなせば信頼性・スピード・コストの最適化を自分たちでコントロールできるかもしれません。
ただ漠然と使うのではなく、モデルの特性を理解し、用途に応じて適切に設計することの重要性を、改めて認識するよい機会になりました。
参考資料
Discussion