OpenAI ChatGPT o3, o3 mini発表 利用開始は1末以降
はじめに
OpenAIから新しいモデルであるo3、o3 miniが発表されました。(イベント「12 Days of OpenAI」のDay12で発表)
まず、最初にお伝えしたいことですが、o3, o3 miniは現時点(2024年12月21日)まだ使えません。
o3 miniが2025年1月末以降、その後o3が使えるようになるそうです。
その前に、安全性を専門とする研究者に向けて、早期アクセスができるようになるそうです。2025年1月10日まで申請を受け付けるそうです。
早期アクセスへの申請方法
2024年12月21日現在、下記URLから申請ができます。
下記を入力して申請します- First Name
- Last Name
- 所属機関または組織
- 居住国
- OpenAIアカウントのメールアドレス
- Organization ID ここから確認できます
- 協力者名
- 安全性試験モデルアクセス(o3 mini, o3と選べます)
- 安全性に関するどのような質問をテストすることに最も興味がありますか? (500 語以内)
- 過去の論文へのリンク
- あなたの作業を示すgithubリポジトリへのリンク
- LinkdInのURL
- Twitter/Xハンドルネーム
「熟慮的整合性」について
o3, o3 miniについてベンチマークで高い数値を示す一方で、安全性についてもかなり強調していました。その中の1つが「熟慮的整合性」という考え方だそうです。
この記事について、まとめてみました。概要
OpenAIが開発した熟慮的整合性 Deliberative Alignmentは、AIモデル(大規模言語モデル、以下LLM)が、より安全に動作するように工夫する新しい戦略。
従来の問題点
従来のLLMは、
- 悪意のあるプロンプト(入力)に従いやすい
- 反対に、安全な質問であっても不適切に拒否してしまう
- ジェイルブレイク攻撃(モデルを騙すような入力)を受けやすい
などの問題があった。
熟慮的アライメントの仕組み
安全仕様 safety specificationsという、人間が書いた「どんな答えが安全で望ましいか」をまとめたガイドラインを、モデルに直接学習させる。
モデルは回答する前に、その安全仕様について考え(=「推論」)、守るべきルールを確認する。
具体的には、連鎖思考 Chain-of-Thought, CoT推論と呼ばれる仕組みを活用し、
- ユーザーのプロンプトを理解する
- 自分の中にある安全ポリシーから大事な部分を取り出す
- より安全で適切な答えを生成する
という手順を踏んでいく。
特徴と効果
- 人間が一つひとつ「こう答えてね」とラベルを付けて教える必要がないので、大規模に導入しやすいのが特徴
- これまでのGPT-4の改良版であるGPT-4oなどよりも、安全面がさらに向上した
- つまり、AIの高い能力を安全性の向上に活かせるという大きなメリットがある
まとめ
AIが高度な推論力を使うことで安全性を高められる、という可能性を示す新しい方法として「熟慮的アライメント」を紹介している。これにより、従来のLLMの弱点であった悪意あるプロンプトへの対応や、誤った拒否応答などを大幅に減らせると期待されている。
コーディングにおいてo3 miniはo1を上回りそう
Day12の発表後、OpenAI CEOのSam Altmanのコメントの1つが下記です。
o3 miniはo1と比較して性能が向上して、利用コストも削減されるようですね。
多くのコーディングタスクにおいて、o3-mini は大幅なコスト削減とともに o1 を上回るでしょう!
この傾向は今後も続くと考えていますが、わずかな性能向上のために指数関数的にお金がかかるようになるのは、非常に奇妙な状況になるとも思います。
おわりに
いかがでしたか、12日間続いた「12 Days of Open AI」でしたが、o1で始まり、o3で終わりましたね!現状、o1の頭の良さに感銘されてo1をひたすら使っています。もうo1なしでは考えられないくらいです。笑
そこに来てのo3の発表。正式に利用可能となるのはまだ先ですが、o3が正式に利用可能になってLLMの賢さがどうなるのか?Agentがさらに広がってくるのか?今から楽しみですね!
Discussion