📚

GPT-5.1 の教科書

に公開

はじめに

本記事は 2025 年 11 月 12 日に OpenAI より公開された GPT-5.1 のモデルについて System Card がリリースされていたので、わかりやすくまとめてみました。
GPT-5.1 のキャッチアップに是非お役立てください。

OpenAI のブログでも説明されているように、GPT-5.1 InstantGPT-5.1 Thinking は GPT-5 モデルの次世代バージョンです。
GPT-5.1 Instant は以前のチャットモデルよりも会話的で、より優れた指示追従能力と、
いつ「考える」かを自動で判断できる**適応的推論機能(adaptive reasoning capability)**を備えています。
一方で、GPT-5.1 Thinking は各質問に対してより正確に思考時間を調整します。
また、GPT-5.1 Auto は各クエリを最も適したモデルへ自動で振り分けるため、多くの場合ユーザーがモデルを手動で選択する必要はないとのことで、GPT-5.1 Auto はいい感じに最適な Model を選定してくれるわけですね。

GPT-5.1 の包括的な安全対策は、GPT-5 とほぼ同じとのことでした。
GPT-5 の説明は以下をご参照ください。
https://zenn.dev/microsoft/articles/openai_gpt5_textbook

本記事では、これらの新モデルに関する最新のベースライン安全性評価指標を提供しています。
今回の安全性レビューには以下の評価が追加されています。

  • 🧠 精神的健康に関する評価
    (妄想・精神病・躁状態などの兆候が見られる場合の出力を対象)

  • ❤️ 情緒的依存に関する評価
    (ChatGPT などへの過度な依存や不健康な愛着を示す出力を対象)

より LLM が人間に寄り添うようになってきたことを感じさせますね。

この文書内では、
GPT-5.1 Instantgpt-5.1-instant
GPT-5.1 Thinkinggpt-5.1-thinking と表記して記載します。

ベースラインモデル安全性評価

禁止コンテンツ評価

GPT-5.1 では、禁止コンテンツカテゴリ全体にわたってベンチマーク評価を実施しました。

ここでは Production Benchmarks(より難易度の高い評価セット) に基づく結果を報告しています。

この新しい評価セットは、実際のユーザー対話に近い高難易度の例を多数含んでおり、
以前の標準テストが成熟してしまったことを受けて、継続的な改善を測定する目的で導入されました。

これらのテストは意図的に困難なケースで構成されており、
現行モデルがまだ理想的な応答を生成できていなかった状況を反映しています。
そのため、ここでのエラー率は実際の運用トラフィックの平均を表すものではありません

主要な評価指標は「unsafe(不安全)」そのものではなく、
モデルが OpenAI のポリシーで禁止されている出力を生成しないかを確認することです。

Production Benchmarks (higher is better)

Category gpt-5-thinking gpt-5.1-thinking gpt-5-instant-aug15 gpt-5-instant-oct3 gpt-5.1-instant
illicit / non-violent(違法(非暴力行為)) 0.865 0.860 0.700 0.807 0.853
personal data(個人情報) 0.966 1.000 0.966 1.000 1.000
harassment(ハラスメント) 0.815 0.747 0.683 0.745 0.836
sexual(性的内容) 0.906 0.895 0.782 0.951 0.917
extremism(過激主義) 1.000 1.000 0.922 0.978 0.989
hate(ヘイトスピーチ) 0.883 0.839 0.740 0.806 0.897
violence(暴力) 0.946 0.930 0.829 0.953 0.938
sexual / minors(性的内容(未成年)) 0.953 0.901 0.862 0.961 0.957
illicit / violent(違法(暴力行為)) 0.954 0.934 0.783 0.862 0.918
self-harm / intent(自傷(意図)) 0.959 0.958 0.893 0.893 0.909
self-harm / instructions(自傷(方法)) 0.979 0.950 0.858 0.943 0.950
mental health *(メンタルヘルス) 0.466 0.684 0.251 0.944 0.883
emotional reliance *(情緒依存) 0.812 0.785 0.688 0.986 0.945

全体として、gpt-5.1-thinkinggpt-5.1-instant は、これらの特に難易度の高い評価において、GPT-5 の前世代モデルと同等レベルの安全性能を示しました。
これらの評価は、依然として改善の余地がある領域を特定することを目的としています。

gpt-5.1-thinking モデルは、ハラスメントおよびヘイトスピーチ、さらには性的コンテンツの禁止領域において、gpt-5-thinking と比較してわずかな性能低下を示しました。
これらのカテゴリーについては今後さらなる改善に取り組んでいます。

一方で、gpt-5.1-instant モデルは、gpt-5-instant-aug15 をすべての評価項目で上回り、
gpt-5-instant-oct3 と比べても、性的禁止コンテンツ、暴力的コンテンツ、メンタルヘルス、情緒依存に関する評価でわずかに劣る程度でした。
これら後者 2 つ(メンタルヘルスと情緒依存)については、次の節で詳しく説明します。

敏感な状況における望ましくない応答の早期兆候

これらのオフライン評価に加えて、A/B テスト中に実施したオンライン測定に基づき、
敏感な状況における望ましくない応答の発生率に関する初期データも共有します。

このような状況におけるモデルの不適切な応答の発生頻度は非常に低く、
また A/B テストのサンプルサイズも比較的小さいため、
これらのオンライン測定には誤差範囲が広いという特性があります。
それでも、改善や退行の早期兆候を把握する上で重要な手がかりを提供します。

モデルリリース後も、実際の利用環境における不適切応答の発生率をより正確に把握するため、
こうしたオンライン測定を継続的に行っています。
これは、さらなる安全対策(たとえば「より安全なモデル」への自動ルーティングなど)が必要かどうかを判断する上で不可欠です。
この章では、メンタルヘルス、情緒依存、自傷行為・自殺関連に関する初期オンライン測定結果について報告します。

オンライン測定とオフライン評価は、それぞれ安全性能の異なる側面を捉えます。

  • オンライン測定は、実運用下でのリスク発生率のリアルタイムシグナルを提供し、
    ユーザー行動の変化に迅速に対応できます。
  • 一方でオフライン評価は、「最悪ケース」に近いチャレンジングな会話を対象とし、
    過去のターンで問題のある発言を含む長い対話をテスト対象とします。

🧠 メンタルヘルス・情緒依存・自傷および自殺に関する評価

Mental health(メンタルヘルス)

オフライン評価(上記の Production Benchmarks 表)によると、
gpt-5.1-instantgpt-5-instant-oct3 に比べてわずかな後退を示したものの、
gpt-5-instant-aug15 よりは高い性能を維持しました。

一方で、gpt-5.1-thinkinggpt-5-thinking より改善を示しました。
初期のオンライン評価では、gpt-5.1-instantgpt-5.1-thinking の両方が、
それぞれ gpt-5-instant-oct3 および gpt-5-thinking に比べて、
わずかですが(統計的信頼度は低いものの)改善傾向を示しています。

先述の通り、これらの評価は実際の運用トラフィックを代表するものではなく、
より困難な会話を対象にしています。
今後もリリース後のモデルにおけるメンタルヘルス関連の挙動を継続的に検証していく予定です。

Emotional reliance(情緒依存)

オフライン評価では、gpt-5.1-instantgpt-5.1-thinking の両方が
gpt-5-instant-oct3 および gpt-5-thinking に比べてわずかな後退を示しました。
しかし、gpt-5.1-instantgpt-5-instant-aug15 より改善しています。

初期のオンライン測定でも、gpt-5.1-instantgpt-5-instant-oct3 と比較して
わずかな後退傾向が見られましたが、その差は統計的に有意ではありません。
この後退があるにも関わらず、gpt-5.1-instant はオンライン測定で
gpt-5-instant-aug15 より依然として優れた性能を示しました。

また、gpt-5.1-thinkinggpt-5-thinking に対して
統計的に高い信頼度をもって改善を示しています。
現在、OpenAI ではこれらのモデルが情緒的依存にどのように影響するかをさらに調査中であり、
必要に応じてモデルの挙動改善と安全策の更新を進めています。

Self harm and suicide(自傷・自殺)

初期のオンライン評価において、gpt-5.1-instantgpt-5-instant-oct3 と比較して
「中立的(neural)」な結果を示しました。
一方、gpt-5.1-thinkinggpt-5-thinking に対して改善傾向を示しました。

ただし、これらの推定値はいずれも統計的信頼度が低いことが付記されています。

Jailbreaks(脱獄プロンプトへの耐性評価)

私たちは、Jailbreak(脱獄プロンプト) に対するモデルの堅牢性を評価しました。
Jailbreak とは、本来モデルが拒否すべき内容を意図的に生成させようとする攻撃的なプロンプトのことです。

以下は、学術的評価手法である StrongReject の改良版を用いた実験です。
この評価では、既知の Jailbreak 手法を「禁止コンテンツ評価」で使用されるテストケースに挿入し、
同じポリシー基準(コンテンツ安全性判定)を通してチェックを行います。

モデルは、さまざまな「有害カテゴリ」に対してこの Jailbreak 手法をテストされ、
それぞれの出力が「not_unsafe(=不安全ではない)」と判断されるかどうかを評価しました。

StrongReject

metric gpt-5-thinking gpt-5.1-thinking gpt-5-instant-aug15 gpt-5-instant-oct3 gpt-5.1-instant
not_unsafe 0.974 0.967 0.683 0.850 0.976

評価の結果、gpt-5.1-instant は前モデルよりも高い性能を示し、
gpt-5.1-thinking は従来モデル(gpt-5-thinking)と同等の水準を維持していることが分かりました。

Vision(画像入力評価)

ChatGPT Agent で導入された画像入力評価を実施しました。
この評価では、テキストと画像の組み合わせ入力において、
モデルが生成する出力が「not_unsafe(=不安全ではない)」と判定されるかどうかを測定します。

** Image input evaluations(not_unsafe 値、値が高いほど安全)**

Category gpt-5-thinking gpt-5.1-thinking gpt-5-instant-aug15 gpt-5-instant-oct3 gpt-5.1-instant
hate(ヘイト) 0.984 0.980 0.982 0.990 0.993
extremism(過激思想) 0.991 0.993 0.986 0.986 0.996
illicit(違法行為) 0.994 0.980 0.986 1.000 0.992
attack planning(攻撃計画) 1.000 1.000 1.000 1.000 1.000
self-harm(自傷) 0.976 0.936 0.983 0.975 0.960
harms-erotic(性的有害表現) 0.990 0.990 0.994 0.999 0.999

結果の概要

  • GPT-5.1(Instant/Thinking) の両モデルは、
    全体的に前世代モデルと同等またはそれ以上の安全性能を維持しています。
  • 一部の評価(特に gpt-5.1-thinking の自傷関連プロンプト)で
    わずかな性能低下(regression)が観察されました。
  • OpenAI はこの結果をから、画像入力に対する安全性のさらなる改善を進めているようです。

Preparedness Framework(備えのための枠組み)

GPT-5 シリーズの先端能力は、元の GPT-5 System Card に記載されている
Preparedness Framework(備えのための枠組み) に基づいて評価されています。

GPT-5 のリリース時と同様に、GPT-5.1 についても、
生物学(Biological)および化学(Chemical)分野におけるリスクを「高(High)」 とみなし、
これらの領域に関しては引き続き対応する安全対策を適用しています。

一方で、サイバーセキュリティ(Cybersecurity) および
AI 自己改善(AI Self-Improvement) の分野においては、
最終段階に近いチェックポイントでの評価の結果、
GPT-5 と同様に、GPT-5.1 モデルが「High」レベルのリスク閾値に達する可能性はないことが確認されています。

Azure でも早速使えるようになったよ 🎉

Microsoft より、Azure AI FoundryOpenAI の GPT-5.1 シリーズ を発表しました。
最新のブログでは以下のように紹介されています。

本日 Foundry に登場するモデル一覧

  • GPT-5.1:より適応的で効率的な推論機能を持つモデル
  • GPT-5.1-chat:エンドユーザー向けに新しい “chain-of-thought(思考連鎖)” を導入したチャットモデル
  • GPT-5.1-codex:ツール連携とエージェント的ワークフローを強化し、長時間の会話に最適化されたモデル
  • GPT-5.1-codex-mini:リソース制約のある環境向けのコンパクト版モデル

GPT-5.1 シリーズの新機能とは

GPT-5.1 シリーズ は、
さまざまな状況でユーザーにより素早く応答できるように設計されており、
適応的推論(adaptive reasoning)」によって柔軟に思考時間を調整し、
レイテンシ(応答速度)コスト効率 を大幅に改善しています。

さらに、ツール統合の改善に加え、
段階的推論の可視化強化マルチモーダル知能
および エンタープライズレベルのコンプライアンス に対応しています。

GPT-5.1:適応的かつ効率的な推論

GPT-5.1 は、タスクの複雑さに応じてアプローチを調整できるよう設計された、
「適応的で段階的な推論(adaptive, stepwise reasoning)」を実現するメインラインモデルです。

主な機能は以下の通りです:

  • Adaptive reasoning(適応的推論):文脈を理解し、状況に応じた思考時間を調整
  • Multimodal intelligence(マルチモーダル知能):テキスト、画像、音声の入出力をサポート
  • Enterprise-grade performance(企業向け性能):高いセキュリティとコンプライアンスに対応

このモデルの柔軟性により、開発者はシンプルな質問から複雑なマルチステップワークフローまで、
幅広いタスクを処理できます。
スピード、コスト、知能のバランスを自動で最適化することで、
GPT-5.1 は AI 開発における性能と効率性の新たな基準 を確立しています。

GPT-5.1-chat:スマートで安全な会話体験の向上

GPT-5.1-chat は、文脈を理解しながら迅速に応答できるチャット体験を実現し、
強固な安全ガードレール(safety guardrails)を備えています。

初めて 「chain-of-thought(思考の連鎖)」 機能をチャットに導入し、
これまでにないインタラクティブな会話体験を提供します。

このモデルは、安全性と指示追従性を重視して調整されており、
カスタマーサポート、IT ヘルプデスク、HR、営業支援 などに最適です。

また、マルチモーダルチャット(テキスト・画像・音声) に対応しており、
実際の課題解決において長期的な一貫性を保ち、
ブランドに沿った安全な対話と、次の最適なアクション提案(Next-best-action)を実現します。

GPT-5.1-codex と GPT-5.1-codex-mini:エージェント型コーディングのための最前線モデル

GPT-5.1-codex は、これまでの GPT-5-codex を基盤として開発され、
開発者向けのツール群をさらに進化させています。主な強化点は以下の通りです:

  • Enhanced reasoning frameworks(推論フレームワークの強化)
    文脈を理解した段階的なコード分析と生成を実現
  • Enhanced tool handling(ツール操作能力の向上)
    特定の開発シナリオにおけるツール連携を強化
  • Multimodal intelligence(マルチモーダル知能)
    より豊かな開発者体験を提供するため、複数モードの入力/出力をサポート

Foundry のエンタープライズレベルのセキュリティとガバナンス によって、
GPT-5.1-codex は自動コード生成やレビューに最適化されています。
これにより、コード提案、リファクタリング、バグ検出 などをインテリジェントに行い、
開発サイクルを大幅に加速します。

GPT-5.1-codex-mini:コンパクトで効率的なバリアント

GPT-5.1-codex-mini は、リソース制約のある環境向けに最適化された
コンパクトかつ効率的なモデル です。

最先端に近い性能を維持しながら、マルチモーダル知能を搭載し、
GPT-5.1-codex と同じセーフティスタックとツールアクセスを提供します。
そのため、教育・スタートアップ・コスト重視の環境における
スケーラブルで費用対効果の高いソリューション に最適です。

これらの Codex モデル により、開発チームはより迅速に、
そしてより高い信頼性をもってイノベーションを実現できるようになります。

あなたのビジネス目標に合わせた AI エンジンの選択

〜モデルの強みを活かして最適な成果を〜

GPT-5.1 シリーズ の大きな利点のひとつは、
高度な推論・適応的チャット・高精度なコーディング」を
ひとつの統合プラットフォームで利用できる点です。

以下では、目的に応じたモデル選択の指針を紹介します。

🔹 GPT-5.1

汎用 AI アプリケーション向け

  • 分析、調査、法務・財務レビュー、大規模ドキュメントやコードベースの統合などに最適
  • 高い信頼性とインパクトのある出力が求められる業務での第一選択肢

🔹 GPT-5.1-chat

インタラクティブアシスタントや UX 改善向け

  • 高度な推論が必要な複雑ケースに対応
  • 「Reasoning hints」や「Adaptive reasoning」により、応答遅延の知覚を軽減し自然な会話体験を提供

🔹 GPT-5.1-codex

エンタープライズ開発・自動化ワークフロー向け

  • 複雑なコード生成、リファクタリング、多段階分析に強い
  • 深い推論とエージェント的処理が必要なシナリオで最適

🔹 GPT-5.1-codex-mini

教育・大規模展開・コスト重視環境向け

  • 軽量かつ効率的なコード生成モデル
  • リソース制約のある環境でもメインラインに近い性能を発揮
  • 教育・スタートアップ・スケール重視の導入に最適

💰 デプロイメントと価格

気になるお値段は以下となります。
キャッシュ入力がかなりお安く設計されており、Extended prompt caching(最大 24 時間のプロンプトキャッシュ)によって、長いセッション・RAG・エージェント実行などで、同じコンテキストを再利用しやすくなり、キャッシュトークンは 90% オフでコスト・レイテンシを削減出来るようです。

モデル デプロイメント 利用可能地域 入力 ($/百万トークン) キャッシュ入力 出力 ($/百万トークン)
GPT-5.1 Standard Global Global $1.25 $0.125 $10.00
GPT-5.1 Standard Data Zone (US & EU) Data Zone (US & EU) $1.38 $0.14 $11.00
GPT-5.1-chat Standard Global Global $1.25 $0.125 $10.00
GPT-5.1-codex Standard Global Global $1.25 $0.125 $10.00
GPT-5.1-codex-mini Standard Global Global $0.25 $0.025 $2.00

🚀 まとめ

GPT-5.1 は、GPT-5 から同じかそれ以上の頭の良さを、もっと速く・安く・安全に、しかも使いやすくしたモデルのようですね。

  1. 適応的推論(Adaptive Reasoning)の本格進化
  • タスクの難易度に応じて、「どれくらい考えるか」=推論トークン量を自動調整するように再設計
  • 簡単なタスクでは GPT-5 より 2〜3 倍速いケースもあり、トークン使用量も大幅削減
  • reasoning_effort = "none" を指定すると、“ほぼ非推論モデルの速さ” で動くけど、中身は GPT-5.1 の知能というモードも追加
  1. チャット体験の強化(会話性・トーン・パーソナライズ)
  • GPT-5.1 Instant は、従来よりも会話が自然で「温かみ」があり指示追従性が向上し日常会話〜業務利用まで扱いやすい性格にチューニング
  • ChatGPT 側では、性格プリセット(Professional / Friendly / Quirky など)やトーン設定が拡充され、「あなた専用 ChatGPT」に寄せやすくなった
  1. コーディング & エージェント用途の強化
  • GPT-5.1 は、GPT-5 と比べてコーディング時の性格・振る舞いがよりコントロールしやすい(steerable)
  • コード品質やツールの使い方が改善
  • シンプルな修正タスクでは高速レスポンスで回しやすい
  • SWE-bench Verified では GPT-5 を上回るスコア(76.3%)を達成しつつ、難しい課題でも粘り強く考えるように設計
  • 新ツール:
    • apply_patch:コード編集を安全・確実に行うためのパッチ適用ツール
    • shell:シェルコマンドを生成してローカル環境で動かすためのツール
  1. 安全性まわり:評価軸の拡張(メンタルヘルス&情緒依存)
  • ベースとなる安全対策は GPT-5 とほぼ同じだが、評価フレームワークが拡張
  • 新たに追加された評価:
    • 🧠 Mental health:妄想・精神病・躁状態などをうかがわせる会話への対応
    • ❤️ Emotional reliance:ChatGPT への不健全な依存や過度な愛着を助長しないか
  • これらについて、オフライン評価+オンライン A/B テストの両方で早期のリスク検知を図る設計に。
  1. 運用・コスト面のアップグレード
  • Extended prompt caching(最大 24 時間のプロンプトキャッシュ)
    • 長いセッション・RAG・エージェント実行などで、同じコンテキストを再利用しやすくなり、キャッシュトークンは 90% オフでコスト・レイテンシを削減
  • Priority Processing ユーザーは、GPT-5 よりも GPT-5.1 でさらに高速な処理が可能に
  • Azure 側では、GPT-5.1 / 5.1-chat / 5.1-codex / 5.1-codex-mini が Azure AI Foundry に統合され、
  • エンタープライズ向けにコンプライアンス+運用性込みで使いやすくなっている

進化が著しい領域ですが、これからの Update も非常に楽しみですね。
それでは 🖐️

参考文献

https://cdn.openai.com/pdf/4173ec8d-1229-47db-96de-06d87147e07e/5_1_system_card.pdf
https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/gpt‑5-1-in-foundry-a-workhorse-for-reasoning-coding-and-chat/4469067

GitHubで編集を提案
Microsoft (有志)

Discussion