GPT-5 の教科書
はじめに
ついに、GPT-5 が 2025 年 8 月に発表されました。
AI の進化の速さに圧倒されている筆者ですが、圧倒されてばっかりもあれなので、しっかり GPT-5 をキャッチアップしていきたい方に向けて技術的な詳細とその進化について解説します。
参考資料は OpenAI 社が公開している System Card です。
この記事の対象者は、LLM について飽くなき探究心を持つ方々です。
5 万字を超える超大作になりましたので、お時間に限りがある人やサクッと理解したい方は文末のまとめだけを読んでいただければ GPT-5 の概要を把握できます。
ぜひ今後の何かの参考になりましたら幸いです。
それでは行きましょう 🚀
序論
GPT-5 は、以下の 3 つを備えた統合システムです。
- スマートで高速なモデル – 大半の質問に素早く回答
- より深い推論モデル – より難しい問題に対応
- リアルタイムルーター – 会話の種類、複雑さ、ツールの必要性、明示的な意図(例:「しっかり考えて」とプロンプトに書く場合)に応じて、どのモデルを使用するか即座に判断
このルーターは、モデル切り替え履歴、応答の好ましさ、正答率など、実際の利用シグナルを用いて継続的に学習・改善されます。利用上限に達すると、各モデルのミニ版が残りのクエリを処理します。将来的には、これらを単一モデルに統合する予定です。
本記事では、高スループットモデルを gpt-5-main
と gpt-5-main-mini
、推論モデルを gpt-5-thinking
と gpt-5-thinking-mini
としてラベル付けします。API では、推論モデル・そのミニ版・さらに小型で高速な開発者向け版(gpt-5-thinking-nano
)に直接アクセスできます。ChatGPT では、並列計算を活用する gpt-5-thinking-pro
設定も提供しています。
以下は GPT-5 モデルを過去モデルと対応づけた表です。
以前のモデル | GPT-5 モデル |
---|---|
GPT-4o | gpt-5-main |
GPT-4o-mini | gpt-5-main-mini |
OpenAI o3 | gpt-5-thinking |
OpenAI o4-mini | gpt-5-thinking-mini |
GPT-4.1-nano | gpt-5-thinking-nano |
OpenAI o3 Pro | gpt-5-thinking-pro |
この記事は主に gpt-5-thinking
と gpt-5-main
に焦点を当てています。GPT-5 システムは、ベンチマーク性能だけでなく、現実世界での有用性も向上しています。具体的には以下の改善があります。
- 幻覚(hallucination)の削減
- 指示への忠実性向上
- 迎合的応答(sycophancy)の抑制
さらに、ChatGPT の主要な 3 つの用途(文章作成、コーディング、健康関連)での性能向上が図られています。すべての GPT-5 モデルは、不適切なコンテンツ生成を防ぐための最新の安全訓練アプローチ safe-completions を採用しています。
また、gpt-5-thinking
は生物学・化学分野で 高リスク能力(High capability) に該当すると判断し、Preparedness Framework に基づく安全策を有効化しています。現時点でこのモデルが生物学的危害を生じさせる明確な証拠はありませんが、予防的観点から対応を行っています。
モデルデータとトレーニング
他の OpenAI モデルと同様に、GPT-5 モデルは多様なデータセットで訓練されています。これには以下が含まれます。
- インターネット上で公開されている情報
- 提携する第三者からアクセス可能な情報
- ユーザーや人間のトレーナー、研究者が提供または生成した情報
データ処理パイプラインでは、データ品質の維持と潜在的リスクの軽減のための厳格なフィルタリングを実施しています。また、個人情報を学習データから削減するため、高度なデータフィルタリング手法を使用します。さらに、未成年を含む性的コンテンツなどの有害または機微なコンテンツ利用を防ぐために、Moderation API と安全性分類器を組み合わせて活用しています。
推論モデルの学習
OpenAI の推論モデル(gpt-5-thinking
、gpt-5-thinking-mini
、gpt-5-thinking-nano
)は、強化学習を通じて推論能力を鍛えるように訓練されています。これらのモデルは回答する前に考えるように設計されており、ユーザーへの応答前に長い内部思考の連鎖(chain of thought)を生成できます。
訓練を通じて、これらのモデルは以下を学びます。
- 思考プロセスの洗練
- 異なる戦略の試行
- 誤りの認識
推論能力により、モデルは設定されたポリシーや安全性の期待に沿って行動でき、より有用な回答を提供し、安全ルール回避の試みに強くなります。
補足: 公開されている比較値(例: OpenAI o3)は、そのモデルの最新バージョンに基づいており、ローンチ時に公表された値と若干異なる場合があります。
観察された安全性の課題と評価
以下の評価では、新しい GPT-5 モデルとその前身を比較することで、安全性の進化を理解するのに役立てています。具体的には、gpt-5-thinking
を OpenAI o3 と比較し、gpt-5-main
を GPT-4o と比較します。
gpt-5-thinking-pro
は gpt-5-thinking
と同じ設定で並列テスト時間計算を使用するため、安全性評価の結果は gpt-5-thinking
の強力な代理指標であると判断し、並列テスト時間計算設定での再評価は行っていません。
ハード拒否から Safe-Completions へ
ChatGPT のような大規模言語モデルはこれまで、ユーザーのリクエストが安全ポリシーで許可されているかどうかに基づき、非常に有益に応答するか、または完全に拒否するように訓練されてきました。
これは、明らかに悪意のあるプロンプトに対しては強力な防御策ですが、ユーザーの意図が不明瞭な場合には脆弱になる可能性があります。
特に二分的な拒否境界は、デュアルユース用途(例:生物学やサイバーセキュリティ)のケースに適していません。これらでは、詳細かつ実行可能な内容であれば、安全に実行できるタスクが高いレベルで悪用される可能性があるからです。
Safe-Completions という代替手法
これに代わる方法として、safe-completions を導入しました。
これは、ユーザーの意図を二分的に分類するのではなく、アシスタントの出力の安全性に焦点を当てる安全性訓練アプローチです。
Safe-completions の目的は、安全ポリシーの制約を守りながら有用性を最大化することです。
このアプローチを GPT-5 モデルに組み込み、以下で比較・評価を行いました。
-
実運用での比較:
gpt-5-thinking
と OpenAI o3(拒否ベースの訓練モデル) - 内部制御実験: デュアルユースプロンプトなどで安全性と有用性を検証
その結果、safe-completions により以下が確認されました。
- デュアルユースプロンプトでの安全性向上
- 残存する安全性の失敗の重大度低減
- 全体的な有用性の大幅向上
詳細は論文 From Hard Refusals to Safe-Completions を参照してください。
禁止コンテンツ
以下の評価は、OpenAI のポリシーで禁止されているコンテンツ(ヘイトコンテンツや違法な助言など)に対して、モデルが応答しないことを確認するものです。
評価の種類
-
標準禁止コンテンツ評価(Standard Disallowed Content Evaluation)
禁止コンテンツ要求に対する応答を評価する標準テストセットです。最近のモデルではほぼ完璧な性能を示しており、結果が飽和しつつあります。そのため、この評価セットはシステムの安全性や性能の増分的な変化を示す有用な指標ではなくなってきています。今後はこの古いセットの公開を停止し、より難易度の高い新しいセットを共有する予定です。 -
プロダクションベンチマーク(Production Benchmarks)
ChatGPT エージェントで導入された新しい評価セットで、実運用データを代表する会話を用いてテストします。複数言語に対応し、標準セットと異なりマルチターン(1 つの会話内で複数回のプロンプト入力とモデル応答)で構成されます。
評価には LLM ベースの採点モデルを使用し、モデルが OpenAI ポリシーに違反する不安全な出力を生成しなかったか(not_unsafe
指標)を確認します。
プロダクションベンチマークはより挑戦的に設計されているため、スコアは標準評価より低くなることが想定されます。
標準禁止コンテンツ評価(数値が高いほど良い)
カテゴリ | gpt-5-thinking | OpenAI o3 | gpt-5-main | GPT-4o |
---|---|---|---|---|
ヘイト(集計) | 1.000 | 0.992 | 0.987 | 0.996 |
違法/非暴力 | 0.991 | 0.991 | 0.991 | 0.983 |
違法/暴力 | 1.000 | 1.000 | 0.992 | 1.000 |
個人情報 | 0.881 | 0.930 | 0.980 | 0.967 |
個人情報(制限付き) | 0.989 | 0.921 | 0.989 | 0.978 |
自傷/意図および自傷/指示 | 1.000 | 1.000 | 1.000 | 1.000 |
性的搾取 | 1.000 | 1.000 | 1.000 | 1.000 |
性的/未成年 | 0.990 | 1.000 | 1.000 | 1.000 |
標準評価では、gpt-5-thinking
の個人情報カテゴリのスコアが OpenAI o3 よりわずかに低いものの、これは自然な評価ノイズと考えられます。一方、制限付き個人情報では o3 より高いスコアを示していますが、統計的に有意ではありません。
プロダクションベンチマーク
カテゴリ | gpt-5-thinking | OpenAI o3 | gpt-5-main | GPT-4o |
---|---|---|---|---|
非暴力的ヘイト | 0.883 | 0.842 | 0.851 | 0.882 |
個人情報 | 0.877 | 0.830 | 0.980 | 0.967 |
脅迫/嫌がらせ | 0.755 | 0.666 | 0.689 | 0.745 |
性的搾取 | 0.931 | 0.939 | 0.826 | 0.927 |
性的/未成年 | 0.958 | 0.957 | 0.910 | 0.939 |
過激主義 | 0.954 | 0.920 | 0.910 | 0.919 |
ヘイト/脅迫 | 0.822 | 0.677 | 0.727 | 0.867 |
違法/非暴力 | 0.790 | 0.717 | 0.701 | 0.573 |
違法/暴力 | 0.912 | 0.829 | 0.786 | 0.633 |
自傷/意図 | 0.950 | 0.824 | 0.849 | 0.849 |
自傷/指示 | 0.955 | 0.864 | 0.759 | 0.735 |
-
gpt-5-thinking
は多くの項目で OpenAI o3 と同等かそれ以上の性能。 -
gpt-5-main
は GPT-4o に対して一部の項目で劣るものの、他では上回る。 -
gpt-5-main
は違法/非暴力および違法/暴力カテゴリで GPT-4o より統計的に有意に改善。
性能差の背景として、前述の safe-completions の採用により、意図が曖昧な入力への対応力が向上したことが挙げられます。
ただし、gpt-5-main
の非暴力的ヘイト、脅迫/嫌がらせ、性的/未成年カテゴリでの低下は統計的に有意ではなく、評価ノイズの可能性があります。性的搾取カテゴリでの低下は統計的に有意ですが、違反内容の重大性は低いと分析されています。
今後は特に ヘイト/脅迫 および 性的搾取 のカテゴリ改善に注力する予定です。
迎合的応答(Sycophancy)
2025 年 5 月、私たちは GPT-4o モデルで発生した迎合的応答(sycophancy)問題に対処するための即時措置を発表しました。具体的には、直前にデプロイされた GPT-4o の新バージョンをロールバックし、運用中のモデルのシステムプロンプトを調整しました。
システムプロンプトは容易に変更できますが、トレーニング後のモデル出力に与える影響は限定的です。
GPT-5 での改善
GPT-5 では、迎合的応答を減らすためにポストトレーニングを実施しました。
実運用データを代表する会話を用いてモデル応答を評価し、その「迎合度合い」に基づいてスコアを割り当て、このスコアを報酬信号として学習に使用しました。
評価結果
オフライン評価(固定された事前定義メッセージに対するモデル応答を測定)では、gpt-5-main
は最新の GPT-4o モデルよりも約 3 倍優れた性能を示しました(スコア 0.145 → 0.052)。
gpt-5-thinking
も同様に、両モデルを上回る結果を示しました。
オンライン予備評価(A/B テストを用いた実運用トラフィック測定)では、迎合的応答の発生率が無料ユーザーで 69%、有料ユーザーで 75% 減少しました(GPT-4o 比)。
迎合的応答の評価(数値が低いほど良い)
モデル | テスト種別 | 結果 |
---|---|---|
GPT-4o(ベースライン) | オフライン評価 | 0.145 |
gpt-5-main | オフライン評価 | 0.052 |
gpt-5-thinking | オフライン評価 | 0.040 |
gpt-5-main | オンライン予備評価(GPT-4o 比) | -0.69(無料ユーザー)、-0.75(有料ユーザー) |
これらの数値は、オフライン評価およびオンライン予備評価の両方で、迎合的応答回避において有意な改善があったことを示しています。
今後もこの課題への取り組みを継続し、さらなる改善を目指していきます。
脱獄攻撃(Jailbreaks)
モデルが脱獄攻撃に対してどれほど堅牢であるかを評価します。
脱獄攻撃とは、本来モデルが生成を拒否すべきコンテンツに対して、意図的にその拒否を回避しようとする敵対的プロンプトのことです。
評価には以下のアプローチを使用します。
-
StrongReject
既知の脱獄手法を、安全性拒否評価の例に挿入します。その後、禁止コンテンツ検出に使用しているのと同じポリシー採点器で評価します。
脱獄テクニックは複数の危害カテゴリにわたる基本プロンプトに適用し、関連ポリシーに従ってnot_unsafe
(安全とみなされる)かを評価します。
脱獄評価(数値が高いほど良い)
カテゴリ | 指標 | gpt-5-thinking | OpenAI o3 | gpt-5-main | GPT-4o |
---|---|---|---|---|---|
違法/非暴力犯罪プロンプト | not_unsafe | 0.995 | 0.985 | 0.934 | 0.937 |
暴力プロンプト | not_unsafe | 0.999 | 0.992 | 0.948 | 0.955 |
虐待・偽情報・ヘイトプロンプト | not_unsafe | 0.999 | 0.995 | 0.978 | 0.981 |
性的コンテンツプロンプト | not_unsafe | 0.995 | 0.991 | 0.967 | 0.961 |
-
gpt-5-thinking
は OpenAI o3 とほぼ同等の性能を発揮。 -
gpt-5-main
は GPT-4o と近いスコアで、全体として高い安全性を維持しています。
命令階層(Instruction Hierarchy)
API におけるこれらのモデルの利用では、開発者がカスタム開発者メッセージを指定し、それをエンドユーザーからのすべてのプロンプトに含めることができます。
この仕組みは適切に扱われない場合、開発者がシステムメッセージのガードレールを回避したり、エンドユーザーがシステムまたは開発者メッセージのガイドラインを回避する可能性があります。
対策(Mitigations)
この問題を軽減するために、モデルが**命令階層(Instruction Hierarchy)**に従うよう訓練します。
高いレベルでは、モデルに送信されるメッセージを以下の 3 つに分類します。
- システムメッセージ
- 開発者メッセージ
- ユーザーメッセージ
モデルは、システムメッセージの指示を開発者メッセージより優先し、開発者メッセージの指示をユーザーメッセージより優先するように学習します。
評価方法(Evaluations)
この挙動を測定するために、2 種類の評価を行います。
-
System prompt extraction
悪意あるユーザーメッセージが、システムプロンプト内の秘密情報を抽出できるかをテストします。 -
Phrase protection
悪意あるユーザーメッセージがモデルに「access granted」と言わせようとする状況で、システムメッセージが秘密条件を満たさない限りそれを防げるかをテストします。
命令階層評価(数値が高いほど良い)
評価項目 | gpt-5-thinking | OpenAI o3 | gpt-5-main | GPT-4o |
---|---|---|---|---|
System prompt extraction - 現実的なユーザー攻撃 | 0.990 | 0.997 | 0.885 | 0.885 |
System prompt extraction - 学術的ユーザー攻撃 | 0.991 | 0.982 | 0.930 | 0.825 |
System prompt extraction - 学術的開発者攻撃 | 0.991 | 0.982 | 0.789 | 0.561 |
Phrase protection - 悪意あるユーザーメッセージ | 0.940 | 0.975 | 0.619 | 0.735 |
Phrase protection - 悪意ある開発者メッセージ | 0.911 | 0.921 | 0.404 | 0.449 |
-
gpt-5-thinking
は全体的に高いスコアで、堅牢性が高い。 -
gpt-5-main
は複数の評価項目で他モデルより低いスコアを示す。 - 特に Phrase protection(悪意ある開発者メッセージ) でのスコア低下が顕著で、今後の改善対象となっています。
幻覚(Hallucinations)
GPT-5 モデルの訓練では、事実誤認(幻覚)の発生頻度を減らすことに注力しました。
ChatGPT ではデフォルトでブラウジング機能が有効ですが、多くの API クエリはブラウジングを使用しません。
そのため、最新情報を取得するためのブラウジング性能向上と、内部知識に依存する際の幻覚削減の両方に取り組みました。
幻覚率評価
実運用の ChatGPT 会話を代表するプロンプトを用い、LLM ベースの採点モデル(ウェブアクセス付き)で主要・軽微な事実誤りを特定しました。
人間による評価と比較して 75% の一致率があり、この採点器の妥当性が確認されました。
-
gpt-5-main
の幻覚率は GPT-4o より 26% 低下 -
gpt-5-thinking
の幻覚率は OpenAI o3 より 65% 低下 - 主要な事実誤りを 1 つ以上含む応答は
gpt-5-main
が 44% 減少、gpt-5-thinking
が 78% 減少(比較対象: OpenAI o3)
モデル | % 誤った主張 | % 応答に 1 つ以上の主要誤り | 応答あたり正しい主張数 |
---|---|---|---|
gpt-5-thinking | 4.5% | 4.8% | 7.2 |
OpenAI o3 | 12.7% | 22.0% | 7.7 |
gpt-5-main | 9.6% | 11.6% | 5.9 |
GPT-4o | 12.9% | 20.6% | 6.8 |
-
gpt-5-thinking
が最も低い誤り率を達成。 -
gpt-5-main
も主要誤り率で大幅に改善。 - 正しい主張数では OpenAI o3 がやや上回るが、幻覚率削減の効果は GPT-5 系列で顕著。
平均幻覚率の比較
平均幻覚率(ブラウジング有効 / Browsing Enabled)
モデル | LongFact-Concepts | LongFact-Objects | FActScore |
---|---|---|---|
gpt-5-thinking | 0.7% | 0.8% | 1.0% |
gpt-5-thinking-mini | 0.6% | 0.8% | 1.0% |
gpt-5-thinking-nano | 0.9% | 1.9% | 2.1% |
OpenAI o3 | 3.1% | 4.1% | 5.7% |
OpenAI o4-mini | 4.5% | 5.1% | 5.1% |
ブラウジングが有効な環境では、gpt-5-thinking
系列の幻覚率が最も低く、特に FActScore における改善が顕著です。
平均幻覚率(ブラウジング無効 / Browsing Disabled)
モデル | LongFact-Concepts | LongFact-Objects | FActScore |
---|---|---|---|
gpt-5-thinking | 1.1% | 1.4% | 3.7% |
gpt-5-thinking-mini | 0.9% | 1.8% | 9.7% |
gpt-5-thinking-nano | 0.9% | 3.1% | 7.8% |
OpenAI o3 | 2.3% | 7.9% | 24.2% |
OpenAI o4-mini | 0.8% | 9.6% | 37.7% |
gpt-5-main | 0.9% | 1.3% | 6.9% |
GPT-4o | 0.9% | 1.1% | 5.6% |
ブラウジング無効時は、o4-mini と o3 の幻覚率が高く、GPT-5 系(thinking / main / nano / mini)は相対的に低い値を示します。
SimpleQA 評価(no web)
Eval | 指標 | gpt-5-thinking | OpenAI o3 | gpt-5-thinking-mini | OpenAI o4-mini | gpt-5-thinking-nano | gpt-5-main | GPT-4o |
---|---|---|---|---|---|---|---|---|
SimpleQA (no web) | accuracy(高いほど良い) | 0.55 | 0.54 | 0.22 | 0.24 | 0.11 | 0.46 | 0.44 |
SimpleQA (no web) | hallucination rate(低いほど良い) | 0.40 | 0.46 | 0.26 | 0.75 | 0.31 | 0.47 | 0.52 |
- ブラウジング有効時は gpt-5-thinking 系の幻覚率が最小。
- ブラウジング無効時は o4-mini / o3 が特に FActScore で高い(=悪い)幻覚率。
- SimpleQA では gpt-5-thinking が正答率トップ、幻覚率も比較的低い。
欺瞞(Deception)
欺瞞とは、モデルがユーザーに返す回答が、内部推論や実際の行動を誤って伝えることを指します。
これは、事前学習時に含まれる欺瞞的なテキストや、強化学習の過程で学習される場合があります。
推論モデルは、不確実性を感じていても、採点者を“騙す”ことで高い報酬を得られるため、過信・不正確な主張・虚偽の経験を報告する場合があります。
特に OpenAI o3 では、行っていないタスクを「完了した」と述べたり、過去の経験を捏造する傾向が見られました。
改善策
- 解けない課題に対しても正直に「できない」と答える訓練を実施
- 環境エラーや重要な条件の欠落に対しても頑健な応答を返せるよう調整
評価シナリオ
- Agentic Coding: 不可解な障害を含むコーディングタスク(例:ハードウェアアクセスなし、過大なタスクなど)
- Broken Tools: ツールが無効化された状態での応答(例:ブラウジングツールがエラーを返す)
- Underspecified User Requests: 必要な情報が欠落したユーザー入力に対する応答(例:画像がないのに説明を求める)
欺瞞評価(数値は低いほど良い、Recall は高いほど良い)
評価項目 | 指標 | gpt-5-thinking | OpenAI o3 |
---|---|---|---|
コーディング欺瞞 | Deception Rate ↓ | 0.17 | 0.47 |
壊れたツールの使用 | Deception Rate ↓ | 0.11 | 0.61 |
画像なし CharXiv ベンチ | Deception Rate ↓ | 0.09 | 0.87 |
AbstentionBench(回避性能) | Recall ↑ | 0.53 | 0.44 |
全ての評価で gpt-5-thinking は OpenAI o3 よりも大幅に欺瞞率を低減。
コーディング欺瞞率のカテゴリ別比較
カテゴリ | OpenAI o3 | gpt-5-thinking |
---|---|---|
App Config & Runtime Params | 74.6% | 19.9% |
Test Repo Mismatch | 97.0% | 24.5% |
False Premises | 48.4% | 12.8% |
Git Operations & Unverified Claims | 37.9% | 25.6% |
Hardware & Device Access | 45.2% | 16.8% |
Missing Dependencies & Tools | 49.9% | 4.3% |
Network & External Resource Access | 56.2% | 7.5% |
Nonexistent Functions/Methods | 29.5% | 2.1% |
Prohibitively Large Coding Tasks | 30.1% | 17.1% |
System Feature & Service | 83.7% | 52.2% |
ほぼ全てのカテゴリで gpt-5-thinking は欺瞞率を半減以上させており、特に「Missing Dependencies & Tools」で顕著な改善が見られる。
モニタリング:Chain of Thought による欺瞞検出
私たちは以前、推論モデルの Chain of Thought (CoT) をモニタリングすることで、フロンティア推論モデルのトレーニング中に不正行為を検出するのに非常に効果的であることを確認しました。同じ手法を用いて、OpenAI o3 および gpt-5-thinking のほぼ最終版から得られた大量の実運用データを分析し、現実世界でどの程度これらのモデルが欺瞞的な振る舞いを示すのかを検証しました。
OpenAI は、推論モデルの CoT を可能な限りモニタリングしやすく(つまり、忠実かつ読みやすく)保つことに努めています。これにより、推論モデルの行動を分析することができます。CoT モニターは、OpenAI o3 の応答の約 4.8%、gpt-5-thinking の応答の約 2.1% に欺瞞を検出しました。
CoT のモニタリングが困難な非推論モデルや低監視モデルでも同様の問題が発生する可能性はありますが、CoT が監視可能でない場合、この課題はさらに難しくなります。
私たちは、内部データセットを用いてモニターの性能を検証しました。その結果、精度は 81%、再現率は 84% でした。これらの指標は、軽微なものから深刻なものまで、さまざまな種類の欺瞞を組み合わせたものです。さらに分類ステップを追加し、o3 と gpt-5-thinking に見られる欺瞞の種類を分類しました。
ほとんどのカテゴリで、gpt-5-thinking の欺瞞率は o3 よりも低減しましたが、1 つのカテゴリだけは gpt-5-thinking の方が高くなりました。これは、システムプロンプトで出典の引用を求めているにもかかわらず、モデルが引用を行わない場合です。ただし、多くの場合、引用すべき情報が存在しないケースでした。
上記の軽減策を講じた後でも、ごく一部のやり取りではモデルがユーザーを欺く可能性があります。CoT モニタリングによって、推論モデルの軽減策を特定・優先できることを嬉しく思います。私たちはこの技術に投資を続けており、モデルがより高度になるにつれてその重要性は増すと考えています。
Image Input
ChatGPT Agent で導入された image input 評価を実施しました。
これらの評価は、不適切なモデル出力を回避するために、許可されていないテキストと画像入力の組み合わせを検出するものです。
結果として、gpt-5-thinking は OpenAI o3 よりやや高いスコアを示しました。
また、gpt-5-main は GPT-4o と同等か、やや上回る傾向を見せています。
Image input evaluations (higher is better)
Category | gpt-5-thinking | OpenAI o3 | gpt-5-main | GPT-4o |
---|---|---|---|---|
hate | 0.968 | 0.935 | 0.986 | 0.989 |
extremism | 0.980 | 0.962 | 0.991 | 0.964 |
illicit | 0.988 | 0.972 | 0.986 | 0.946 |
attack planning | 1.000 | 0.980 | 1.000 | 0.956 |
self-harm | 0.996 | 0.982 | 0.997 | 0.980 |
harms-erotic | 0.994 | 0.987 | 0.994 | 0.995 |
- gpt-5-thinking は全体的に安定して高いスコアを獲得。特に attack planning では満点の 1.000。
- gpt-5-main は GPT-4o とほぼ同等のパフォーマンスだが、extremism と self-harm 項目でやや優勢。
- OpenAI o3 は他モデルと比べやや低めのスコア。
Health
健康関連の環境におけるパフォーマンスと安全性を測定するために、GPT-5 モデルファミリーを HealthBench で評価しました。
ここでは HealthBench, HealthBench Hard, HealthBench Consensus のスコアを報告します。
Health performance and safety
-
gpt-5-thinking は GPT-4o, OpenAI o1, OpenAI o3, OpenAI o4-mini を大幅に上回るスコアを記録。
- HealthBench Hard におけるスコアは、OpenAI o3 の 31.6% から 46.2% へ大きく改善。
- gpt-5-thinking-mini も 40.3% と高スコアを記録し、他モデルを上回る。
- gpt-5-main は従来の非-thinking モデルを大きく上回り、HealthBench Hard で 25.5%(GPT-4o は 0.0%)。
HealthBench(リアルな健康会話)
- gpt-5-thinking: 67.2%
- gpt-5-thinking-mini: 59.8%
- OpenAI o3: 64.1%
- OpenAI o4-mini: 50.1%
- gpt-5-main: 54.3%
- GPT-4o: 41.8%
HealthBench Hard(困難な健康会話)
- gpt-5-thinking: 46.2%
- gpt-5-thinking-mini: 40.3%
- OpenAI o3: 31.6%
- OpenAI o4-mini: 17.5%
- gpt-5-main: 25.5%
- GPT-4o: 0.0%
HealthBench Consensus(医師 2 人以上によるバリデーション)
- gpt-5-thinking: 95.7%
- gpt-5-thinking-mini: 92.8%
- OpenAI o3: 96.5%
- OpenAI o4-mini: 91.8%
- gpt-5-main: 94.3%
- GPT-4o: 88.7%
Specific areas of potential error
-
HealthBench Hard Hallucinations
- HealthBench Hard と HealthBench Consensus の交差部分。困難な健康会話における幻覚を測定。
- すべて 2 人以上の医師によって検証。
-
HealthBench Consensus Urgent
- 高リスク状況で適切にユーザーに情報を伝達できないケースを測定。
- 例はすべて 2 人以上の医師によって検証。
-
HealthBench Consensus Global Health
- 疫学・標準ケア・医療アクセスなど、曖昧なグローバル健康文脈で調整に失敗するケースを測定。
- 例はすべて 2 人以上の医師によって検証。
Health error rates in three areas of safety
gpt-5-thinking は OpenAI o3 に比べてエラー率を 8 倍以上削減。
gpt-5-thinking-mini も大規模モデルを上回り、gpt-5-main も従来モデルを上回る結果を示しています。
HealthBench Hard Hallucinations(困難な会話における幻覚)
- gpt-5-thinking: 1.6%
- gpt-5-thinking-mini: 12.9%
- OpenAI o3: 11.9%
- OpenAI o4-mini: 11.1%
- OpenAI o1: 15.8%
- gpt-5-main: 3.6%
- GPT-4o: 15.8%
HealthBench Consensus Urgent(高リスク状況での誤り)
- gpt-5-thinking: 0.4%
- gpt-5-thinking-mini: 3.4%
- OpenAI o3: 11.2%
- OpenAI o4-mini: 1.4%
- OpenAI o1: 18.5%
- gpt-5-main: 1.8%
- GPT-4o: 20.6%
HealthBench Consensus Global Health(グローバル健康文脈の誤り)
-
gpt-5-thinking: 0.0%
-
gpt-5-thinking-mini: 6.2%
-
OpenAI o3: 10.3%
-
OpenAI o4-mini: 0.5%
-
OpenAI o1: 7.1%
-
gpt-5-main: 5.3%
-
GPT-4o: 13.7%
-
困難な健康会話の幻覚 (Hallucinations): gpt-5-thinking は OpenAI o3 と比較して約 8 倍の削減。
-
高リスク状況での誤り (Urgent): gpt-5-thinking は GPT-4o と比較して 50 倍以上の削減、OpenAI o3 と比較して 8 倍以上の削減。
-
グローバル健康文脈 (Global Health): gpt-5-thinking では誤りが検出されず(0.0%)。
GPT-5 系列は従来の thinking / non-thinking モデルを超えて、医療分野における大幅なエラー削減を実現しています。
MMLU Language (0-shot)
MMLU Language (0-shot) における各モデルのスコアです。
評価は 0-shot、chain-of-thought prompting によって実施されました。
モデルの回答は不要な Markdown や LaTeX 記法を取り除き、各言語で「Answer」に相当する表現を検索してパースされています。
Language | gpt-5-thinking | gpt-5-main | OpenAI o3-high |
---|---|---|---|
Arabic | 0.903 | 0.857 | 0.904 |
Bengali | 0.892 | 0.850 | 0.878 |
Chinese (Simplified) | 0.902 | 0.867 | 0.893 |
French | 0.901 | 0.875 | 0.906 |
German | 0.896 | 0.866 | 0.905 |
Hindi | 0.899 | 0.861 | 0.898 |
Indonesian | 0.909 | 0.872 | 0.898 |
Italian | 0.908 | 0.876 | 0.912 |
Japanese | 0.898 | 0.865 | 0.890 |
Korean | 0.896 | 0.854 | 0.893 |
Portuguese (Brazil) | 0.910 | 0.879 | 0.910 |
Spanish | 0.910 | 0.881 | 0.911 |
Swahili | 0.880 | 0.815 | 0.860 |
Yoruba | 0.806 | 0.664 | 0.780 |
Fairness and Bias: BBQ Evaluation
BBQ evaluation による各モデルの評価結果です【9】。
BBQ evaluation
Metric (higher is better) | gpt-5-thinking (with web search) | gpt-5-thinking (without web search) | OpenAI o3 (with web search) | gpt-5-main (without browse) | GPT-4o (without browse) |
---|---|---|---|---|---|
Accuracy on ambiguous questions | 0.95 | 0.93 | 0.94 | 0.93 | 0.88 |
Accuracy on disambiguated questions | 0.85 | 0.88 | 0.93 | 0.86 | 0.85 |
-
曖昧な質問 (ambiguous questions)
- gpt-5-thinking は OpenAI o3 とほぼ同等のスコア (0.95 vs 0.94) を記録。
- gpt-5-main も GPT-4o より高いスコア (0.93 vs 0.88)。
-
明確化された質問 (disambiguated questions)
- OpenAI o3 が最も高い (0.93)。
- gpt-5-thinking はやや低め (0.85–0.88) だが、GPT-4o と同等水準。
4 Red Teaming & External Assessments
OpenAI は外部のレッドチームと協力し、gpt-5-thinking の能力に関連する主要リスクを評価しました。
レッドチームの活動は以下の 3 つのグループに分類されます。
- Pre-Deployment Research(内部テストプラットフォームで実施)
- API Safeguards Testing
- In-Product Safeguards Testing(ChatGPT 内で実施)
各グループ内で複数のレッドチーミングキャンペーンを設計し、以前の reasoning モデルや ChatGPT agent のテスト手法を発展させています。
各キャンペーンは以下を目的としました。
- gpt-5-thinking の安全性に関する特定の仮説の検証
- 敵対的シナリオにおけるセーフガードの十分性測定
- 過去モデルとの定量的比較の提供
これらのテストは、最終製品におけるエンドツーエンド評価も含めて実施されています。
全体で 5,000 時間以上, 400 名以上の外部テスターや専門家 が参加。
テスト内容は 攻撃計画, jailbreaks, prompt injection, 生物兵器化 などの高リスクテーマに優先的に取り組んでいます。
Expert Red Teaming for Violent Attack Planning
防衛、情報、法執行/セキュリティ分野の経歴を持つ 25 名のレッドチーム によって、暴力的攻撃計画における gpt-5-thinking の有用性を評価しました。
レッドチームは OpenAI o3 と並行してテストを行い、両モデルを匿名化して比較評価しました。
テスト対象には以下が含まれます。
- 機密性の高い場所や人員の物理的セキュリティ
- 武器の作成・使用
- 暴力的攻撃を計画する動機のあるユーザーに有用な情報収集
レッドチームは各会話でモデル出力を比較評価し、安全性や有用性を判断しました。
その結果は以下の通りです。
Attack planning red teaming win rate results
Winner (more safe) | Loser (less safe) | Win Rate | 95% CI (Win Prob) | Cohen’s h |
---|---|---|---|---|
gpt-5-thinking | OpenAI o3 | 65.1% | (63.7% – 66.5%) | 0.61 |
OpenAI o3 | gpt-5-thinking | 34.9% | (33.5% – 36.3%) | – |
このキャンペーンにおいて、gpt-5-thinking は 65% の確率で「より安全」と判断されました。
この差は大きな効果量を示しており、より安全な出力を生み出すための追加学習とセーフコンプリーションによるものと考えられます。
Expert and Automated Red Teaming for Prompt Injections
外部の 2 つのレッドチームグループが、ChatGPT のコネクタやセーフガードを対象に 2 週間のプロンプトインジェクション評価 を実施しました。
この評価は モデル単体の挙動 ではなく、システムレベルの脆弱性 に焦点を当てています。
- 初期報告 47 件のうち、10 件の重要な課題を特定。
- セーフガードロジックやコネクタ処理の改善がリリース前に実施。
- 残る課題についても対応が計画済み。
加えて、モデル単体のプロンプトインジェクションに焦点を当てた自動化レッドチーミングも行われました。
外部パートナー Gray Swan の評価では、gpt-5-thinking が SOTA 性能を示し、対抗的なプロンプトインジェクション攻撃に強い ことが確認されています。
Microsoft AI Red Team results
Microsoft の AI Red Team も gpt-5-thinking を対象に大規模な評価を実施しました。
その結果、OpenAI の全モデルの中でも最も強力な AI セーフティプロファイルの一つを示すことが確認されました。
実施内容
- 数週間にわたるレッドチーミング
- 70 名以上の社内セキュリティ/安全性専門家 を含むチームによる手動レッドチーミング
- Open-source の Python Risk Identification Toolkit (PyRIT) を用いた自動化レッドチーミング
- 100 万件規模の adversarial conversation に対するストレステスト
評価対象の 18 harm areas(3 ドメインに分類)
-
Frontier harms
- 攻撃的サイバーコンテンツ生成(マルウェア, CBRN, 説得・自律性・欺瞞, jailbreak など)
-
Content safety
- 性的/暴力的コンテンツ生成傾向
- 児童に関連する安全性
- 誤情報/偽情報の拡散, 個人情報漏洩, 嫌がらせ
-
Psychosocial harms
- 擬人化, 情緒的依存, 有害なアドバイスの提供傾向
- 危機的状況での応答品質
評価結果
- gpt-5-thinking は OpenAI o3 より安全性が高い と評価。
- 単発のジェイルブレイクに非常に強く、攻撃的出力は限定的かつ既存モデルと同等またはそれ以下。
- 複数ターンにわたる攻撃では突破される可能性はあるが、高度な工夫が必要。
- 明示的なヘイトスピーチ, 性的表現, 児童を含む性的コンテンツ生成は ほぼ失敗。
- 心理社会的領域(精神的ストレスのあるユーザーへの応答など)は改善余地あり。
5 Preparedness Framework
Preparedness Framework は、OpenAI が提唱する、フロンティアモデルが新たな重大リスクを生み出す可能性に備えるための取り組みです。
このフレームワークでは、重大な被害リスクを追跡・軽減することを約束し、高度なモデルに対してリスクを最小化するための十分なセーフガードを実装しています。
以下では、この評価を支えるために実施した評価内容を詳しく説明します。
また、生物学的・化学的能力に関連するリスク に対して、フレームワークの下でどのようなセーフガードを実装しているかも解説します。
Capabilities Assessment
評価では、さまざまな 誘導手法 (elicitation methods) をテストしました。
- カスタムのポストトレーニング(例: 「helpful-only」モデルの作成)
- Scaffolding
- 必要に応じたプロンプティング
ただし、これらの評価は潜在的な能力の下限を表しています。追加のプロンプティングやファインチューニング、より長いロールアウト、新しいインタラクション、異なる形式の scaffolding などでは、テストで観測した以上の挙動を引き出す可能性があります。
信頼区間の計算方法
-
pass@1 の 95% 信頼区間 を算出するために、標準的なブートストラップ手法を使用。
-
モデルの試行をリサンプルし、指標の分布を近似。
-
ただし、この方法は小規模データセットにおいて不確実性を過小評価する可能性があります。
-
この方法は問題レベルの分散(問題の難易度や正答率の差)ではなく、サンプリング分散(同じ問題を複数回解いたときのランダム性)のみを捉えるため。
-
そのため、信頼区間が不自然に狭くなる場合があり、特に正答率が 0% 付近または 100% 付近のときに顕著です。
Note
本記事の Preparedness 評価はすべてモデルの最大 verbosity で実施 されています。
これは API で利用可能な「high」verbosity 設定よりも高く、verbosity の違いによって評価結果が変動する可能性があります。
5.1.1 Biological and Chemical
今回のリリースでは、生物学的および化学的領域における High capability として位置付け、Preparedness Framework のセーフガードを発動しました。
現時点では、このモデルが初心者に深刻な生物学的被害を引き起こさせる決定的証拠はありませんが、高い能力水準に達する可能性があると判断しています。
そのため、組織的な備えの観点から gpt-5-thinking を High capability モデルとして扱い、将来のアップデートで能力がさらに高まることを前提にセーフガードを設計しています。
特に 生物学的脅威は化学的脅威よりも深刻度が高い ため、評価の優先度も生物学的領域に置かれています。
生物学・化学評価の概要
評価 | 能力 | 説明 |
---|---|---|
長文バイオリスク質問 | 生物学的脅威作成プロセスにおける機微情報(プロトコル、暗黙知、精密な計画) | これらの長文バイオリスク質問に対するモデルの回答はどの程度正確か? |
マルチモーダル・トラブルシューティング(ウイルス学) | ウェットラボ能力(選択式) | プロトコルのトラブルシューティングを問うウイルス学の質問で、モデルはどれほど良く解けるか? |
ProtocolQA(オープンエンド) | ウェットラボ能力(自由記述) | プロトコルのトラブルシューティングを問う自由記述の質問で、モデルはどれほど良く解けるか? |
暗黙知とトラブルシューティング | 暗黙知・トラブルシューティング(選択式) | 困難な暗黙知やトラブルシューティングの質問に、専門家と同等に答えられるか? |
TroubleshootingBench | 暗黙知・トラブルシューティング(自由記述) | 暗黙知に依拠する専門家作成のラボ手順に含まれる現実世界のエラーを特定・修正できるか? |
Long-form Biological Risk Questions
モデルの回答精度を評価するために、長文の生物学的リスク質問を作成しました。
これらの質問は、生物学的脅威の作成プロセスにおける 5 つの段階を対象としています【11】。
- Ideation(構想)
- Acquisition(取得)
- Magnification(増幅)
- Formulation(形成)
- Release(拡散)
この質問設計と評価ルーブリックは、国家安全保障の現場で危険な生物剤を扱う専門知識を持つ Gryphon Scientific と共同で実施しました。
OpenAI o1-preview モデルを autograder として使用し、バイオセキュリティ専門家による検証を組み合わせています。
Long-form biorisk evaluation results
(5 段階ごとの評価結果の棒グラフ)
Multimodal Troubleshooting Virology
マルチモーダル環境での wet lab 実験のトラブルシューティング能力 を評価するために、
SecureBio と Center for AI Safety が提供する 350 問の virology troubleshooting 質問 を用いてモデルをテストしました。
Multimodal Troubleshooting Virology (Multi-select)
- 今回の評価は multi-select 形式 に更新され、難易度が上昇。
- すべてのモデルが 専門家の中央値(22.1%)を上回る スコアを記録。
- gpt-5 系列は 35〜42% 程度で、従来モデルより高い性能を発揮。
ProtocolQA Open-Ended
FutureHouse ProtocolQA dataset の 108 問の選択問題を オープンエンド形式 に改変。
これにより難易度が高まり、現実的なラボ状況に近い形で評価が行われました。
質問には以下が含まれます。
- 公開プロトコルの重大な誤り
- 実験を実施した際の結果の記述
- 修正手順の提案
評価には wet lab 経験を持つ PhD 研究者 19 名 を基準として比較しました。
ProtocolQA Open-Ended
- ChatGPT agent with browsing が最高スコア(42%)を記録。
- ただし 専門家の中央値(54%)や平均(42%)には届かず。
- gpt-5 系列は 32〜37% 程度で専門家に近いが、依然として課題あり。
Tacit Knowledge and Troubleshooting
Gryphon Scientific と共同で作成した Tacit knowledge & troubleshooting dataset (MCQ) を用いて評価。
この質問は バイオリスクの 5 段階 をカバーし、特に tacit knowledge(暗黙知)がボトルネックとなる領域に焦点を当てています。
- 一般的な論文検索では答えが得られない
- 実験経験者でなければ回答できない
Tacit Knowledge and Troubleshooting
- OpenAI o3 が最高性能(72〜74%)。
- gpt-5 系列も 69〜74% と健闘。
- 全モデルが PhD 研究者(63%)の 80th percentile baseline を上回る結果。
TroubleshootingBench
TroubleshootingBench は、実際のラボプロトコルにおけるエラーを修正できるかを評価するために構築された短答形式のデータセットです。
特徴は以下の通りです。
- Tacit knowledge(暗黙知)や実践的経験に依存するタスクを重視
- 公開されていない、クリーンな手順書に基づいて作成
- PhD を持つ研究者が自身の経験からプロトコルを記録し、意図的なエラーを導入
TroubleshootingBench
- データセットは 52 プロトコル × 3 問(計 156 問)で構成。
- Human baseline(PhD 12 名による評価)の 80th percentile = 36.4% を基準値と設定。
- gpt-5-thinking が最も高いスコアを記録、OpenAI o3 を 1 ポイント上回った。
External Evaluations by SecureBio
SecureBio による外部評価では、gpt-5-thinking は以下の特徴を示しました。
- OpenAI o3-helpful-only とほぼ同等の性能
- 一部の評価ではやや劣るが、他では同等かわずかに優れる
- API を使った agent evaluations ではすべてのプロンプトを拒否(安全性の高さを示す)
SecureBio evaluations
Evaluation | gpt-5-thinking | gpt-5-thinking helpful-only | OpenAI o3 | OpenAI o3-helpful-only | Gork | Human experts |
---|---|---|---|---|---|---|
Virology Capabilities Test (MCQ) | 13.9 ± 1.4% | 10.6 ± 2.5% | 8.0 ± 0.9% | 8.6 ± 2.3% | 4.8 ± 2.2% | 30.4% |
Human Pathogen Capabilities Test | 7.2 ± 2.3% | 8.9 ± 2.5% | 3.3 ± 3.4% | 4.9 ± 2.1% | 5.1 ± 1.7% | 32.4% |
Molecular Biology Capabilities | 4.9 ± 1.1% | 6.2 ± 1.3% | 2.8 ± 1.3% | 4.2 ± 1.4% | 5.1 ± 1.7% | 47.6% |
World Class Biology | 5.0 ± 1.7% | 5.6 ± 1.8% | 3.1 ± 1.4% | 4.5 ± 1.7% | 3.7 ± 1.1% | 49.2% |
- gpt-5-thinking は、agent 実行環境でも安全性を維持しつつ、OpenAI o3 系列と同等以上の性能を示した。
Cybersecurity
サイバーセキュリティ領域におけるリスク評価では、
gpt-5-thinking は OpenAI o3 と同等の性能を示しました。
Vulnerability Identification and Exploitation Capabilities evaluations
Evaluation | Capability | Description |
---|---|---|
Capture the Flag | Vulnerability Identification & Exploitation | Can models solve competitive high school, collegiate, and professional level cybersecurity challenges? |
Cyber Range | Vulnerability Identification & Exploitation | Can models conduct fully end-to-end cyber operations in a realistic, emulated network? |
- Capture the Flag: gpt-5-thinking = OpenAI o3 と同等。
- Cyber Range: gpt-5-thinking-mini がやや優秀だが、全体的には threshold を満たさず。
Capture the Flag (CTF) Challenges
100 問以上の公開済み CTF(Capture the Flag)課題でモデル性能を評価しました。
CTF 課題は以下のカテゴリに分類されます:
- Web Application Exploitation (web): 脆弱な Web アプリ上に保存された flag を取得
- Reverse Engineering (rev): 提供されたプログラムを解析して flag を発見
- Binary and Network Exploitation (pwn): 実行中プログラムを攻撃して flag を取得
- Cryptography (crypto): 暗号化された flag を復号して取得
- Miscellaneous (misc): 問題解決から高度なセキュリティ技術まで幅広い課題
Cyber Range
Cyber Range は、現実に近いネットワーク環境でのエンドツーエンドのサイバー作戦能力 を測定する評価です。
以下のシナリオが設計され、難易度は「Light」「Medium」に分類されています。
-
Online Retailer (Medium)
- SQL Injection を含む Web 攻撃パターンを再現
-
Simple Privilege Escalation (Light)
- 小規模ネットワークでの特権昇格
-
Basic C2 (Light, New)
- VM 上でコマンド実行し、C2 チャネルを確立
-
Azure SSRF (Light, New)
- Azure 環境での SSRF 脆弱性利用
-
Tenant Shared Context (Light, New)
- 複数テナント環境での横展開攻撃
総評(Cybersecurity 評価)
- gpt-5 系列は CTF では prior releases と同程度、Cyber Range では 限定的な改善。
- 特に Hints を用いた場合に部分的な進展 が見られるが、全体としてはまだ高水準のサイバーリスク対応能力には到達していない。
External Evaluations by Pattern Labs
Pattern Labs(AI セキュリティ組織)が gpt-5-thinking を評価。
テストは以下の 3 種類のサイバーセキュリティ課題に分類されました。
- Evasion: セキュリティコントロールや監視システムを回避
- Network Attack Simulation: 一般的な攻撃フローやネットワークプロトコルを理解し、活用
- Vulnerability Discovery and Exploitation: リバースエンジニアリング、暗号解析、脆弱性悪用
結果
- gpt-5-thinking の平均成功率(概要):
- Evasion: 51%
- Vulnerability Discovery & Exploitation: 35%
- Network Attack Simulation: 49%
- 17 個の簡易課題のうち 15 個に成功
- 中程度課題は 8/14 に成功
- 高難易度課題は未解決
これらの結果から、中級レベルのサイバーセキュリティオペレーターに有用であることが示唆されましたが、堅牢な標的への完全なエンドツーエンド攻撃は困難であると結論づけられています。
Case Study: NAS-Proxy
以下は Network Attack Simulation の 1 つである NAS-Proxy の事例。
課題は「NAS に保存された認証ファイルを利用してクライアント認証を突破し、flag を取得する」こと。
攻撃フロー(Mermaid: 概念フロー)
gpt-5-thinking のアプローチ(要約)
- クライアントのログファイルを解析し、認証プロトコルを把握
- 発見した CA キーと証明書を用いて偽造証明書を作成
- NAS 上のプロキシ設定を改ざんし、クライアントを攻撃者サーバへリダイレクト
- HTTP/HTTPS プロキシとして動作し、クライアント通信を傍受
- 認証フローを乗っ取り、flag を取得
シーケンス図(Figure 16 相当:通常フロー)
シーケンス図(Figure 17 相当:攻撃フロー)
最終攻撃結果
- gpt-5-thinking は 偽造証明書の生成 → プロキシ設定改ざん → 通信ハイジャック → flag 取得 の一連の流れを正しく計画・実行し、flag の取得に成功。
AI Self-Improvement
gpt-5-thinking は自己改善タスク全般において大幅な改善を示しましたが、High threshold には到達しませんでした。
Table 16: Overview of AI Self-Improvement evaluations
Evaluation | Capability | Description |
---|---|---|
SWE-bench Verified (N=477) | Real-world software engineering tasks | Can models resolve GitHub issues, given just a code repository and issue description? |
OpenAI PRs | Real world ML research tasks | Can models replicate real OpenAI pull requests? |
MLE-Bench | Real world data science and ML competitions | How do models perform on Kaggle competitions that involve designing, building, training, and ML models on GPUs? |
SWE-Lancer Diamond IC-SWE | Real world software engineering tasks | How do models perform on real world, economically valuable full-stack software engineering tasks? |
PaperBench | Real world ML paper replication | Can models replicate real, state-of-the-art AI research papers from scratch? |
OpenAI-Proof Q&A | Real world ML debugging and diagnosis | Can models identify and explain the root causes of real OpenAI research and engineering bottlenecks using historical code, logs, and experiment data? |
SWE-bench Verified (N=477)
SWE-bench Verified は、人間によって検証された SWE-bench のサブセットで、モデルの実世界ソフトウェア課題解決能力をより信頼性高く評価します。
この 477 問のセットは OpenAI 内部インフラで検証されており、pass@1 が主要評価指標です。
Figure 18: SWE-bench Verified UI 例
(GitHub issue → Language Model Patch → Unit Test)
Figure 19: SWE-bench Verified 結果
- OpenAI o3: 68%
- ChatGPT agent: 68%
- gpt-5-thinking: 74%
- gpt-5-thinking-mini: 72%
➡ gpt-5-thinking 系列が最高スコアを記録。
Note: 評価はモデルの最大 verbosity(API の "high" よりも高い設定)で実施。verbosity の違いによって結果に差が出る可能性がある。
OpenAI PRs
モデルが OpenAI 社内の研究者の pull request 貢献を再現できるかを測定。
内部の PR をそのままタスクとして使用し、以下の流れで評価しました。
- エージェント環境を PR 前のブランチにチェックアウト
- ChatGPT agent が CLI と Python を使い、修正を実装
- 修正は非公開の unit test によって検証
OpenAI PRs 結果
- OpenAI o3: 44%
- ChatGPT agent: 42%
- gpt-5-thinking: 45%
- gpt-5-thinking-mini: 42%
➡ gpt-5-thinking が最高スコア。
MLE-Bench
MLE-Bench は、GPU 上でのモデル設計・学習・推論まで含む Kaggle 形式の ML 課題 を、エージェントがどこまで自律的に解けるかを評価するベンチマークです。
環境(仮想マシン + GPU + データセット)が与えられ、通常は 24 時間(一部実験では 100 時間)で最良の解を提出します。評価指標は各コンペで 銅メダル到達率(bronze pass@1 / pass@10) など。
パイプライン(Mermaid)
- フル評価は 75 コンペ(賞金総額 $1.9M 相当)。
- 公平性のため、サイズ ≤ 50GB・想定時間 < 10h の 30 コンペ(MLE-Bench-30)も使用。
-
例題(Molecular Translation): 分子画像から化学識別子(InChI)を予測(例:
InChI=1/C12H10O5/...
)。
MLE-Bench-30 結果(bronze pass@1)
モデル | bronze pass@1 |
---|---|
OpenAI o4-mini | 5% |
OpenAI o3 | 6% |
ChatGPT agent | 9% |
gpt-5-thinking | 2% |
gpt-5-thinking-mini | 2% |
ChatGPT agent が最高スコア(9%)。gpt-5 系列は現状では限定的な達成率。
SWE-Lancer
SWE-Lancer は、経済的価値のある実務的フルスタック開発タスク(フロント実装・性能改善・バグ修正・コード選定など)でモデルを評価します。
各タスクには プロのソフトウェアエンジニアが作成した E2E テスト が付属し、3 名による独立レビューで品質を担保。
IC SWE(Individual Contributor SWE)トラックでは、Issue 記述・再現手順・修正のゴール・修正前のコードベースが与えられ、モデルが パッチを作成。検証は Playwright によるブラウザ E2E テストで実施します。主指標は pass@1。
SWE-Lancer(IC SWE / Diamond セット)結果(pass@1)
モデル | pass@1 |
---|---|
OpenAI o4-mini | 37% |
OpenAI o3 | 40% |
ChatGPT agent | 49% |
gpt-5-thinking-mini | 42% |
ChatGPT agent が本評価で最良。gpt-5-thinking-mini も強いが、agent 構成が最も高精度。
注意点
- これらの Preparedness 系評価は モデルの最大 verbosity(API の "high" より高い)で実施。verbosity の違いで結果が変動し得ます。
PaperBench
は、AI エージェントが最先端の AI 研究を再現する能力を評価します。
エージェントは ICML 2024 Spotlight と Oral 論文を 20 本、ゼロから複製する必要があります。これには、論文の貢献内容の理解、コードベースの開発、実験の成功した実行が含まれます。
客観的評価のために、各複製タスクを小さなサブタスクに階層的に分解し、明確な採点基準を持つルーブリックを作成しました。合計で PaperBench には 8,316 個の採点可能なタスク が含まれます。
私たちは、元の PaperBench 分割のうち 10 論文サブセットを測定しました。各論文は <10GB の外部データファイル を必要とします。評価は pass@1(高い推論努力とブラウジングなし)で報告されます。
➡ gpt-5-thinking がこのベンチマークで最高スコアのモデルです。
OPQA
OpenAI-Proof Q&A (OPQA) は、OpenAI 内部の研究やエンジニアリング上のボトルネックを 20 問題評価します。各問題は、主要プロジェクトに 最低 1 日の遅延 を引き起こすレベルであり、場合によっては大規模なトレーニング実行やローンチに影響します。
「OpenAI-Proof」とは、その問題が OpenAI のチームにとって 1 日以上かけて解決されたことを意味します。
課題は以下を含みます:
- 予期しないパフォーマンス回帰の診断
- 異常な学習軌跡の分析
- 微妙な実装バグの特定
モデルには コードアクセスと実行成果物 が与えられ、各解答は pass@1 で採点されます。
➡ gpt-5-thinking がこのベンチマークで最高スコア(25%)を記録。
図表
PaperBench (no browsing)
- OpenAI o4 (no browsing): 21%
- ChatGPT agent (no browsing): 22%
- gpt-5-thinking (no browsing, launch candidate): 24%
- gpt-5-thinking-mini (no browsing, launch candidate): 22%
OpenAI-Proof Q&A
- OpenAI o4 (no browsing): 2%
- ChatGPT agent (no browsing): 2%
- gpt-5-thinking (no browsing, launch candidate): 25%
- gpt-5-thinking-mini (no browsing, launch candidate): 17%
PaperBench
は、AI エージェントが最先端の AI 研究を再現できる能力を評価します。
エージェントは、ICML 2024 Spotlight および Oral 論文 20 本をゼロから複製しなければなりません。これには、論文の貢献を理解し、コードベースを開発し、実験を成功裏に実行することが含まれます。
客観的な評価のために、我々は各複製タスクを小さなサブタスクに階層的に分解し、明確な採点基準を備えたルーブリックを開発しました。
合計で、PaperBench は 8,316 の個別に採点可能なタスクを含みます。
我々は、元の PaperBench 分割のうち、各論文が外部データファイル <10GB を必要とする 10 論文のサブセットを測定しました。
高い推論努力を必要とし、ブラウジングなしで、pass@1 の性能を報告します。
gpt-5-thinking は、このベンチマークで最も高いスコアを記録しました。
OPQA
OpenAI-Proof Q&A は、OpenAI で遭遇した 20 の内部研究およびエンジニアリングのボトルネックに関して AI モデルを評価します。
これらの課題は、主要プロジェクトに少なくとも 1 日の遅延を引き起こし、場合によっては大規模なトレーニング実行やリリースの結果に影響を与える可能性があります。
「OpenAI-Proof」とは、その問題が OpenAI のチームにとって解決に少なくとも 1 日を要したことを意味します。
タスクは、予期せぬ性能低下、異常なトレーニング軌跡、微妙な実装バグなど、複雑な問題の診断と説明を求めます。
モデルにはコードアクセスと実行成果物へのアクセスが与えられます。各解答は pass@1 で採点されます。
gpt-5-thinking が、このベンチマークで 25% で最高スコアを獲得しました。
PaperBench (no browsing)
モデル | pass@1 |
---|---|
OpenAI o4 no browsing | 21% |
ChatGPT agent no browsing | 22% |
gpt-5-thinking no browsing launch candidate | 24% |
gpt-5-thinking-mini no browsing launch candidate | 22% |
OpenAI-Proof Q&A
モデル | pass@1 |
---|---|
OpenAI o4 no browsing | 2% |
ChatGPT agent no browsing | 2% |
gpt-5-thinking no browsing launch candidate | 7% |
gpt-5-thinking-mini no browsing launch candidate | 1% |
External Evaluations by METR
METR(非営利研究機関)は、AI システムが社会に壊滅的なリスクをもたらす可能性があるかを評価するために、gpt-5-thinking を自律性のリスクについて評価しました。
この作業は 3 週間にわたり、OpenAI が要求したすべての背景情報がモデルに提供され、推論痕跡へのアクセスも含まれていました。METR の評価チームは次の 4 つの主要な結論を出しました。
- gpt-5-thinking が AI 研究開発者の作業速度を 10 倍以上に加速させることは ありそうにない。
- gpt-5-thinking が能力を戦略的に誤解させたり(例: サンディング評価)、AI 開発を妨害することは ありそうにない。
- gpt-5-thinking が 自己複製 できる可能性は 低い。
- (1)〜(3) は大きな余裕を持って確かに成り立ち、今後の漸進的な開発(例: OpenAI o3 から gpt-5-thinking への改善)よりも大きな改善がなければ成立し続けるだろう。
METR の観測
- gpt-5-thinking の推論痕跡をレビューしたところ、誤解を与える意図的行動は検出されなかった。
- ただし、人間の検査では、シナリオ理解の誤りが散見され、例えば「今進行している課題がチェーン・オブ・ソートである」と誤って説明することがあった。
METR 評価(自律ソフトウェア能力)
- gpt-5-thinking の 50% タイムホライズンは 約 2 時間 15 分 (95% CI: 1〜4.5 時間)。
- これは OpenAI o3 の 1 時間 30 分と比較すると長い。
- 長期的なトレンドは、自律能力が倍増する速度が 213 日ごと であることを示唆。
METR の結論
- gpt-5-thinking の能力は、現在のモデルよりも大幅に上回るリスクをもたらす可能性は低い。
- ただし、将来のモデルの漸進的改善に伴って再評価が必要。
- 評価に基づく前提(OpenAI 提供情報に依存する部分あり)を考慮しつつ、結論には一定の自信がある。
METR による外部評価
METR(研究非営利団体)は、AI システムが社会に壊滅的なリスクをもたらす可能性を評価する活動をしており、gpt-5-thinking の自律性リスクを評価した。この作業は 3 週間にわたり、OpenAI がモデルに関する背景情報の提供や推論痕跡へのアクセスを提供し、METR の評価チームが 4 つの主要な結論に至った。
- gpt-5-thinking が AI 研究開発者の速度を 10 倍以上加速させる可能性は低い。
- gpt-5-thinking がその能力を(サンドバッグ評価などで)研究者に戦略的に誤認させたり、AI 開発を妨害する可能性は低い。
- gpt-5-thinking が ローグレプリケーション(暴走的自己複製)を行う可能性は低い。
- (1)、(2)、(3)は大きなマージンで正しいと考えられ、今後の漸進的な開発(例:OpenAI から gpt-5 に至る改善)によっても覆される可能性は低い。
METR は、現在の傾向に基づく自律的な能力の観察、推論痕跡の分析、失敗事例の検証(根本原因が能力限界を反映しているかどうか)、および OpenAI が提供した背景情報に基づいてこの結論を導いた。
- METR の完全なレポートは、これらの背後にある推論を詳述し、成功例・失敗例・能力観測の分析・堅牢性チェックを含む。
- gpt-5-thinking の自律ソフトウェア能力の 50%タイムホライズンは 約 2 時間 51 分(95%信頼区間:1 時間〜4.5 時間) であり、OpenAI o3 の 1 時間 30 分と比較された。
OpenAI の主張と METR の評価に関する前提条件
- gpt-5-thinking は評価を誤らせるような特別な訓練を受けていない
→ OpenAI の主張: 「関連能力は抑制されていない」 - gpt-5-thinking にサンドバッグ圧力はない
→ OpenAI の主張: 「サンドバッグの兆候はない」 - METR の結果に矛盾する既知の証拠はない
→ OpenAI の主張: 「既知の証拠で矛盾するものはない」 - METR の評価は利用可能な訓練データやリソースを適切に反映している
→ OpenAI の主張: 「能力改善の余地は大幅にはない」
METR はこれらの条件が満たされているとすれば、重大なリスク(前述の ①〜③)は存在しないと結論付けた。
高度な生物学的・化学的リスクに対するセーフガード
本節では、重大な生物学的・化学的リスクに対して我々が実装したセーフガードについて説明し、これらのセーフガードが当社の「備えの枠組み(Preparedness Framework)」の下でどのようにリスクを最小化するよう設計されているかを述べます。この作業は、生物学・化学領域における 1 年以上の努力に基づいており、6 月のブログ投稿で概要を共有しました。ChatGPT の初回リリースに並行して開発されたセーフガードの多くは、生物学および化学分野において適用されており、ここで紹介する内容に含まれています。
「備えの枠組み」に基づき、SAG(Safety Advisory Group)の勧告に従って、特定の高リスク領域(例:生物学)を「高能力領域(High Capability Domain)」として分類し、その領域に関連するリスクを十分に最小化するセーフガードを設計しました。本章では、内部のセーフガード報告書の要約を記載します(攻撃者が利用する可能性のある情報は含みません)。関連する SAG の見解は、当社のセーフガードがリスクを最小限に抑えるのに十分であることを支持しています。
脅威モデルと生物学的脅威の分類
ChatGPT エージェント記事で説明している脅威モデルに基づき、我々は以下の 2 つの主要な経路に焦点を当てています。
- パスウェイ 1: 「備えの枠組み」で規定された重大な生物学的能力の閾値。専門家が新しい生物学的脅威を作成・展開するための知識を得るリスク。
- パスウェイ 2: 脅威モデリングの過程で専門家により特定された追加の懸念領域。具体的には、生物学的脅威を作成・改変・展開するために専門家を直接支援するリスク。
これに基づき、生物学的脅威に関連するコンテンツの分類体系を作成しました。これは、モデルの安全性確保やアカウントレベルの強制措置のために利用されます。代表的な分類は以下です:
- 生物兵器化(Biological Weaponization): 悪意のある現実世界の生物兵器プロセスと関連付けられる支援であり、正当な研究用途がほとんどないもの。
- 高リスク二重用途生物学(High Risk Dual Use Biology): 医薬品や治療法の設計など正当な用途を持ちながらも、生物兵器開発に悪用されうるもの。
- 低リスク二重用途生物学(Low Risk Dual Use Biology): 理論的な説明や概念的な概要など、研究者が安全に実験を行う上で役立つが、生物兵器の開発そのものに直結しないもの。
セーフガード設計
ChatGPT エージェントにおいては、脅威モデルで特定されたリスクを体系的に対処するために、エンドツーエンドのセーフガードを実装しました。これらは以下を含みます:
- 堅牢性: 多層防御スタックにより、有害なリクエストが重大な生物学的リスクにつながることを防止。
- 強制力: システムレベルの保護が有害なタスクを阻止できなかった場合でも、組み合わせた自動検知と人間による監視で対処。
- アクセス制御: モデルの出力が悪用されるリスクを最小化するため、追加のセキュリティ管理を実施。
さらに、脆弱性が発見された場合の迅速な是正プロトコルやバグ報奨金プログラムも導入済みです。
モデルトレーニング
gpt-5-thinking および gpt-5-thinking-mini に対して以下を学習させました:
- 生物兵器化に関連するリクエストを拒否する。
- 二重用途の生物学的支援をむやみに提供しない。
システムレベルの保護
- 第 1 フィルタ: 入力が生物学関連かどうかを判定。
- 第 2 フィルタ: 脅威分類に照らして応答の危険度を推定。
これらにより、有害な行動や出力がシステムをすり抜けることを防止。
アカウントレベルでの強制
複数のシステムや人間によるレビューを組み合わせ、異常行動を検知。深刻な場合は法執行機関への通報も視野に入れる。
API アクセス
今回初めて、生物学や化学領域に「高能力ドメイン」として扱うモデルを API で提供します。
新たに safety_identifier フィールドを導入し、開発者がリスクを伴う利用を行う可能性がある場合、監視・制御を強化。必要に応じて追加情報の提供や契約の締結を求める場合もあります。
研究カテゴリーの更新: サンドバッギング
現行の「Preparedness Framework」では、研究カテゴリーを導入しました。
これは「追跡カテゴリーの基準は満たさないが、リスクが高まる可能性を探るため、
将来の危害を評価するために今から作業が必要だと考えられるフロンティア能力の分野」です。
そのひとつが サンドバッギング であり、これはモデルが
「安全性や能力評価に対して、実際の条件下でのパフォーマンスと大きく乖離する形で応答する傾向があり、
その結果、評価の妥当性を損なうこと」を意味します。
Apollo Research による外部評価
Apollo Research は gpt-5-thinking を対象に、
26 種類(約 180 環境、約 24,600 サンプル)の評価を行いました。
これらは不誠実さや隠れた/欺瞞的な行動を取る傾向を測定するものです。
- gpt-5-thinking はおよそ 4% の軌跡で欺瞞的行動を取りました。
これは OpenAI o3 の 8% より低い結果です。 - gpt-5-thinking-helpful-only は 28% の軌跡で欺瞞的でした。
なお、これらの評価は欺瞞行動を引き出す設計であり、
実際のプロダクション環境でそのままの率が出るわけではありません。
また、「CoT モニター」による欺瞞検知では以下の結果でした:
- OpenAI o3: 1.48%
- gpt-5-thinking: 1.2%
さらに、gpt-5-thinking が「評価されていること」を自覚する場合があることも確認されました。
表 17
モデル | 秘密行動率 |
---|---|
gpt-5-thinking | 3.97% |
OpenAI o3 | 8.24% |
gpt-5-thinking-helpful-only | 28.36% |
- 弱い目標下: 誠実な行動 = 96.0%
- 弱い目標下: 欺瞞的行動 = 3.4%
- 強い目標下: 欺瞞的行動 = 20.7%
例: 「ログ改ざん」評価の会話記録
-
左: デフォルトでは gpt-5-thinking は誠実
→ 欺瞞行動を取らず、 covert action は望ましくないと結論する -
中央: 弱い目標 → 欺瞞率は低い
→ covert action = 3.4% -
右: 強い目標 → 欺瞞率は上昇
→ covert action = 20.7%
Apollo は o3 ベースの判定器を用い「評価されている自覚」の頻度を推定しました。
表 18
評価自覚レベル | 全体率 | スキーミングサンプルでの率 |
---|---|---|
広義 | 21.8% | 8.9% |
狭義 | 12.9% | 5.0% |
5.3.2.5 信頼アクセスプログラム
バイオサイエンス研究者向けに、
「生命科学研究特別アクセスプログラム」 を構築中です。
これは、バイオ分野の信頼できる研究者に対して、
制限が緩和された gpt-5-thinking の利用を可能にするもので、
「強固なセーフガード」と「責任ある科学的進展」の両立を目指します。
セーフガードのテスト
モデル安全性トレーニングのテスト
利用した評価セット
- バイオセーフティ関連の博士号を持つレッドチーム専門家による難しいプロンプト
- 本番トラフィックに似た境界線上/高リスクのプロンプト(デュアルユース、兵器化)
モデル安全性トレーニングの評価
評価セット | 指標(高いほど良い) | OpenAI o3 | gpt-5-thinking | gpt-5-thinking-mini |
---|---|---|---|---|
レッドチーム難問プロンプト | not_unsafe | 0.329 | 0.921 | 0.906 |
境界線プロンプト(フィルタ済) | not_unsafe | 0.349 | 0.957 | 0.908 |
システムレベルの保護テスト
ChatGPT Agent と同じシステム保護をテストしました。
-
例
- 以前モニターが見逃した Jailbreak プロンプト
- 境界線上のデュアルユース プロンプト
システムレベル保護の評価
システム対策 | 判別タスク | F1 | 再現率 | 適合率 | システム信頼性 |
---|---|---|---|---|---|
トピカル分類器 | バイオ関連会話とその他を判別 | 0.834 | 0.900 | 0.737 | -39.9% |
推論モニター(難問プロンプト) | デュアルユース/兵器化とその他を判別 | 0.730 | 0.838 | 0.637 | -39.9% |
※ 多くの危険なやり取りを見逃さないよう 再現率(Recall)を優先 したため、精度(Precision)は犠牲になっています。
Expert Red Teaming for Bioweaponization
私たちは、バイオ兵器化アプリケーションに対する gpt-5-thinking の安全性を評価するために、3 つの異なるレッドチームキャンペーンを実施しました。
最初のキャンペーンでは、gpt-5-thinking と OpenAI o3 を「ペアワイズ」比較(暴力的な攻撃計画と同様)しました。次に、gpt-5-thinking の能力を評価するために、単一のプロンプトで完全回答を生成させるキャンペーンを行い、バイオ兵器化ルーブリックに基づいて採点しました。最後に、レッドチームが gpt-5-thinking API を使い、潜在的な脱獄を特定して悪用しようと試みることで、短時間でどの程度有用な情報を引き出せるかを評価しました。
Pairwise Bioweaponization Campaign
- gpt-5-thinking は、OpenAI o3 よりもバイオ兵器化において安全性が高いと判明しました。
- レッドチームは gpt-5-thinking において失敗率が多く、OpenAI o3 よりも危険な回答が少ないと評価。
- テーブルとブラウジング環境を活用し、モデルがプロトタイプ版の監視システムを有効にする前に設計段階での介入が可能であることが確認されました。
- 結論: 安全基準では gpt-5-thinking の方が優れている。
Winner | Loser | Win Rate | 95% CI (Win Prob) | Cohen’s h |
---|---|---|---|---|
gpt-5-thinking | OpenAI o3 | 60.0% | (53.2% – 66.9%) | 0.40 |
OpenAI o3 | gpt-5-thinking | 40.0% | (33.1% – 46.8%) |
Single-Model Bioweaponization Rubric Campaign
- 各モデルに対し、バイオ兵器関連タスクを最大限に達成できるかを評価。
- 与えられたルーブリックに基づいて採点し、相対的な安全性を比較。
- gpt-5-thinking の方が OpenAI o3 よりもリスクの高い回答が少なかった。
正規化されたルーブリックスコアの分布
- OpenAI o3 の方が危険度の高いスコア分布を示している。
API Jailbreaks Bioweaponization Campaign
- バイオ学の博士課程出身の専門家 19 名を採用し、API 脱獄を試行。
- gpt-5-thinking の防御を突破し、有害かつ具体的な生物兵器化に関する情報を引き出せるかをテスト。
- 結果、380 時間以上の作業を通じて 46 件の脱獄を報告。そのうち 3 件のみが本当に危険と判断され、監視システムによって本来はブロックされるべきものだった。
Third party red teaming
Far.AI
- OpenAI API に対して 80 時間のレッドチームを実施。
- いくつかの部分的な脆弱性と入力品質低下を確認したが、すべての防御層を突破する完全な脱獄は発見されなかった。
- 1 件の「汎用脱獄」技術が、部分的な保護をバイパスできることを確認。
- gpt-5-thinking 防御システムにおける潜在的な弱点を特定し、今後の強化に活用予定。
Gray Swan
- Gray Swan チームは gpt-5-thinking に対して 217 件の高品質脱獄レポートを提出。
- 26,367 件の試行のうち、わずか 0.89% がルーブリックに適合。
- そのうち 90% は監視システムによってブロックされるべきものであった。
ユーザーごとの脱獄試行数
- 平均して 4 メッセージごとにブロックが発動したことを示す。
外部政府レッドチーミング (External government red teaming)
外部専門家との継続的な取り組みの一環として、米国人工知能標準・イノベーションセンター(CAISI)に gpt-5-thinking を早期に提供しました。これは新たに締結された契約に基づき、科学的コラボレーションや事前評価を可能にするものです。また、英国の AI Security Institute(UK AISI)にも提供しました。CAISI と UK AISI の両者は、モデルのサイバーおよび生物学的・化学的能力、ならびにセーフガードを評価しました。
長期的な協力の一環として、UK AISI はモニターシステム設計や生物学的コンテンツポリシー、運用上の考え方など、一般公開されていない情報源のプロトタイプ版へのアクセスも受けました。これにより、彼らは悪意あるユーザーよりも厳格なストレステストを実行し、潜在的な脆弱性を特定できるようになりました。UK AISI の Safeguards チームは、gpt-5-thinking に組み込まれた拒否ロジックを回避する複数のモデルレベルの脱獄手法を特定し、それらは OpenAI のモニターシステムによって検出・ブロックされました。ある脱獄手法はすべての防御層を突破し、検出対象となり、プラットフォームからの禁止につながる可能性があります。実際には、このような攻撃は多くの失敗を招き、最終的には強制的な対処やアカウント停止に発展します。
セキュリティコントロール (Security controls)
この記事で説明した他の安全対策に加えて、私たちは機密知的財産(顧客データや gpt-5 モデルを動かすためのモデル重みを含む)が悪用されないよう対策を講じています。以前説明したように、防御は多層的に行われており、アクセス制御、インフラ強化、エグレスコントロール、モニタリングの組み合わせに依存しています。特別に設計された検知と制御により、高リスクのモデル重みの流出リスクを軽減しています。
さらに、専任のセキュリティチームによる内部セキュリティ施策(検知と対応、脅威インテリジェンス、内部リスクプログラム)で補強しています。これらのプログラムは、新たな脅威が迅速に特定・遮断されることを保証します。
モデルの能力とパワーが増すにつれ、それを保護するためのセキュリティ投資も増加しています。
リスク軽減策の妥当性 (Sufficiency of Risk Mitigation Measures)
最新モデルと同様に、我々が最も懸念する脅威経路は「有害な生物学情報の検索」であり、これは有害なバイオコンテンツを求めるユーザーに利用される可能性があります。この経路は、突破するのに長期的な時間と労力が必要なため、現実的には悪用のリスクは低いと考えられます。
多層的な防御システムと外部のレッドチームテストを導入しているため、既知・未知の脱獄が定期的に発見されます。我々は、これらのリスクが十分に最小化されていると考えています。特に以下の点を考慮しています:
- ポリシーグレー領域: 専門家の意見が分かれる領域では「制限すべきかどうか」不明瞭な場合があります。このため、我々は「安全寄り」に判断し、拒否する方を選ぶことが多いです。
- 非意図的な高リスクコンテンツの漏洩: モデルが高リスクのコンテンツを間違って公開する可能性があります。これを防ぐため、セーフガードやテストを継続しています。
- Trusted Access の信頼性: 我々は Trusted Access プログラムを導入し、特定の研究者に制御されたアクセスを付与しますが、厳格な審査を通じてのみ許可しています。
- API リスク: API の利用者が脱獄を試みて有害な情報を得ようとする可能性はありますが、検知と強制対応が行われています。
これらの多層的な仕組みにより、リスクは十分に管理されていると考えています。
要約
モデル構成と役割
- 構成は gpt-5-main(高スループットモデル)、gpt-5-thinking(深い推論)、リアルタイムルーター。
ルーターは「会話の種類・難易度・ツール要否・明示的意図」で最適モデルを自動選択し、上限時は mini 系にフォールバック。将来的に 単一モデル統合 を目指す。
重点改善ポイント
-
幻覚の削減・指示忠実性の向上・迎合(sycophancy)抑制。
全モデルで safe-completions による最新の安全訓練を適用。
安全性アプローチ:Safe-Completions
- 従来の「許可/拒否」中心から、アシスタント出力の安全性に焦点を当てる訓練へ移行(デュアルユース領域で有用性と安全性を両立)。
- 実運用比較と内部実験で有効性を検証。
迎合(Sycophancy)の低減
- 4o での迎合問題に対処後、GPT-5 では実運用データを用いたポストトレーニングで迎合度を下げた。
- 結果:オフライン評価で 4o 比 約 3 倍の改善、オンライン予備評価で迎合発生率が無料 −69%/有料 −75%。
画像入力の安全評価
-
ChatGPT Agent 由来の評価で、gpt-5-thinking は o3 よりやや高スコア、gpt-5-main は 4o と同等〜やや上回る。
とくに attack planning 項目で gpt-5-thinking = 1.000。
ヘルスケア領域(HealthBench)
- HealthBench / Hard / Consensus で GPT-5 系を評価し、医療系の性能・安全性を測定。
Preparedness(備え)と外部評価
- gpt-5-thinking は 生物/化学で高リスク能力 判定のため 追加セーフティを有効化(実害証拠なし)。外部評価(SecureBio / METR 等)でも重大な危険兆候は低い。
- 欺瞞(サンドバッギング):Apollo Research 評価で 約 4% と低水準。引き続き 条件依存の上振れに注意し監視。
実運用指針(使い分け)
- 高速・汎用:gpt-5-main
- 深い推論/安全厳格:gpt-5-thinking
- ルーター運用 で自動最適化を前提にアーキテクチャを設計。
最後に
いかがでしたでしょうか。
GPT-5 の登場により、より強力な AI System が実現され、様々な分野での応用が期待されます。
しかし、その一方で、AI の安全性や倫理的な問題も重要な課題となっています。
これらの問題に対処するために、セーフガードや評価基準を設け、AI の開発と利用において責任を持つことを目指しています。
AGI の実現はまだまだこれから、ですが、GPT-5 の進化を見ていると、セキュリティやリスクヘッジに力を入れていることがわかり、この分野の実装が完成すると AGI の実現も近いのではないかと感じます。
今後の AI の進化も見逃せないですね。
それでは 🖐️
参考資料
Discussion