OpenAI o1, o1-miniモデルの内容まとめ
概要
2024/09/12(現地時間)にOpenAIが新たなモデルo1とo1-miniを発表しました。いろいろ気になって調べたので個人的にまとめておきます。ちなみにStrawberryとかQ*とか言われてたモデルらしいですね
モデルの特徴
o1
新たなモデルo1は回答により時間をかけて答えるモデルになっており、複雑なタスクの推論して科学、コーディング、数学の分野において従来のモデルより優れた性能を発揮する。
- それぞれの分野でのテスト結果
- 科学分野
- 物理学、生物学、化学の問題のベンチマーク(GPQA)において博士より良い成績
- コーティング
- プログラミング問題(Codeforces)では89th percentile
- 数学
- 米国数学オリンピック(AIME)の予選では上位500人入り
テスト性能
- 米国数学オリンピック(AIME)の予選では上位500人入り
- 科学分野
モデルは大規模な強化学習アルゴリズムを使用してChain of Thoughtによりどのように推論するのかを教えた。o1の性能は訓練時間とテスト実行時間(モデルの思考時間?)を長くするとより性能が上がり、このスケーリングの制約はLLMの事前学習とは異なっているので引き続き調査中である。
多くの一般的なタスクはGPT-4oが性能を発揮する一方で複雑な推論タスクでは重要な進歩であると認識しているのでカウンターを1に戻してo1と呼ぶことにする。
残りは以下のリンクを参照
- https://openai.com/index/introducing-openai-o1-preview/
- https://openai.com/index/learning-to-reason-with-llms/
o1-mini
o1-miniはSTEM、特に数学とコーディングに優れており、AIMEやCodeforcesなどの評価ベンチマークでo1の性能にほぼ匹敵します。 我々は、o1-miniが、広い世界の知識なしに推論を必要とするアプリケーションのための、より速く、費用対効果の高いモデルになることを期待しています。 今日、我々は、OpenAI o1-previewよりも80%安いコストでo1-miniをローンチします。
残りは以下のリンクを参照
モデル詳細
モデル情報
モデルの詳細は以下の通りでモデルの使い分けは
- o1-preview
- ドメインを越えて難しい問題を解決するために設計された推論モデル
- o1-mini
- より高速で安価な推論モデルで、特にコーディング、数学、科学に優れている。
MODEL | DESCRIPTION | CONTEXT WINDOW | MAX OUTPUT TOKENS | TRAINING DATA |
---|---|---|---|---|
o1-preview | Points to the most recent snapshot of the o1 model: o1-preview-2024-09-12
|
128,000 tokens | 32,768 tokens | Up to Oct 2023 |
o1-preview-2024-09-12 | Latest o1 model snapshot | 128,000 tokens | 32,768 tokens | Up to Oct 2023 |
o1-mini | Points to the most recent o1-mini snapshot: o1-mini-2024-09-12
|
128,000 tokens | 65,536 tokens | Up to Oct 2023 |
o1-mini-2024-09-12 | Latest o1-mini model snapshot | 128,000 tokens | 65,536 tokens | Up to Oct 2023 |
https://platform.openai.com/docs/models/o1 から
個人的にはMAX OUTPUT TOKENS
が4oなどより多く設定されているのが気になっている
4oのモデル情報
MODEL | DESCRIPTION | CONTEXT WINDOW | MAX OUTPUT TOKENS | TRAINING DATA |
---|---|---|---|---|
gpt-4o | GPT-4o: Our high-intelligence flagship model for complex, multi-step tasks. GPT-4o is cheaper and faster than GPT-4 Turbo. | 128,000 tokens | 4,096 tokens | Up to Oct 2023 |
gpt-4o-2024-05-13 | gpt-4o currently points to this version. | 128,000 tokens | 4,096 tokens | Up to Oct 2023 |
gpt-4o-2024-08-06 | Latest snapshot that supports Structured Outputs | 128,000 tokens | 16,384 tokens | Up to Oct 2023 |
chatgpt-4o-latest | Dynamic model continuously updated to the current version of GPT-4o in ChatGPT. | 128,000 tokens | 16,384 tokens | Up to Oct 2023 |
o1-previewとo1-miniはChatGPT PlusユーザーとTier 5の開発者(API)が使用できる。
- Plus ユーザー
- o1-preview
- 30 messages/1week
- o1-mini
- 50 messages/1week
- o1-preview
- Tier 5 開発者
- rate limit of 20 RPM
ChatGPT Freeユーザーにはo1-miniを提供できるように計画中である。
これらのモデルは推論モデル(reasoning model)の初期プレビューであり、今後はモデルのアップデートに加え、ブラウジング、ファイルや画像のアップロード、その他の機能を追加する予定である。
API使用時の注意事項
ベータ版のため使用できないものがある
- 現状使用できないもの
- 画像入力
- userとassistant messageのみ、system messageは使用できない
- Streamingは不可
- tools、function calling、response formatも使用できない
- Logprobは使用できない
-
temperature
とtop_p
とn
は1に固定 -
presence_penalty
とfrequency_penalty
は0に固定 - Batch APIとAssistants APIは対応してない
推論の方法は以下の通り(原文をDeepLで翻訳しただけ)
o1モデルは推論トークンを導入する。 モデルはこれらの推論トークンを使用して「考え」、プロンプトの理解を分解し、回答を生成するための複数のアプローチを検討する。 推論トークンを生成した後、モデルは目に見える完了トークンとして答えを生成し、そのコンテキストから推論トークンを破棄します。 ここに、ユーザーとアシスタント間のマルチステップ会話の例を示します。 各ステップからの入力トークンと出力トークンは引き継がれ、推論トークンは破棄されます。
なので最大出力トークン数が多いらしい
そして、最終出力のみしか出力されないので途中の推論(画像の点線より上)は出力に含まれない
(2024/09/14追記:これちょっと勘違いしてたので補足すると推論トークン部分がカットされるだけで複数回回答を生成してるのでは無いんじゃ無いかと思ってるが、本当のことはOpenAIのみぞ知る)
これまでのモデルではmax_tokens
のパラメータは生成トークン数と出力(表示される)トークン数が同じだったが、o1系列は生成トークン数と出力(表示される)トークン数が異なるのでmax_completion_tokens
パラメータによりモデル生成する全トークン数を制限できるようになる。一方でこれの値が低すぎると推論できないので25000トークンを指定することを推奨している。
プロンプトのアドバイス
これまでのモデルにはない推論の仕組みがあるため、step-by-stepなどのプロンプトテクニックは推奨されない。以下にベストプラクティスを示す
- プロンプトはシンプルで簡潔にする
- 詳細な情報ではなく、簡潔で明瞭に書くことがよい
- Chain of Thought関連のプロンプトは避ける
- モデルの内部で推論を行うので不要
- 区切り記号を使用
- 三重引用符、XMLタグ、セクションタイトルなどの区切り記号を使用して、入力の異なる部分を明確に示し、モデルが異なるセクションを適切に解釈できるようにします。
- RAGでは追加のコンテキストを制限する
- 追加の情報を加える際には最も関連性の高い情報のみとする
exampleやcookbookなどはリンク の下の方にある
コスト
Models | Input Tokens(per 1M token) | Output Tokens(per 1M token) |
---|---|---|
o1-preview | $15.00 | $60.00 |
o1-mini | $3.00 | $12.00 |
gpt-4o-2024-08-06 | $2.50 | $10.00 |
gpt-4o-mini | $0.150 | $0.600 |
上の通り推論過程も課金されるのでo1系はかなり割高かなって感じ
感想
OpenAIのやろうとしてることがなんとなくわかった感じがする。みんないい性能のLLMを考えようとしてOpenAIおっそいなって思ってた感じするけど、ずっとAGIに目指してやっていこうと思ってるのかなって思った。
参考リンク
Discussion