🌐

OpenAI o1, o1-miniモデルの内容まとめ

2024/09/13に公開

 概要2024/09/12(現地時間)にOpenAIが新たなモデルo1とo1-miniを発表しました。いろいろ気になって調べたので個人的にまとめておきます。ちなみにStrawberryとかQ*とか言われてたモデルらしいですね

 モデルの特徴
 o1新たなモデルo1は回答により時間をかけて答えるモデルになっており、複雑なタスクの推論して科学、コーディング、数学の分野において従来のモデルより優れた性能を発揮する。
それぞれの分野でのテスト結果
科学分野
物理学、生物学、化学の問題のベンチマーク（GPQA）において博士より良い成績

コーティング
プログラミング問題（Codeforces）では89th percentile

数学
米国数学オリンピック（AIME）の予選では上位500人入り

テスト性能


モデルは大規模な強化学習アルゴリズムを使用してChain of Thoughtによりどのように推論するのかを教えた。o1の性能は訓練時間とテスト実行時間(モデルの思考時間?)を長くするとより性能が上がり、このスケーリングの制約はLLMの事前学習とは異なっているので引き続き調査中である。
時間と性能の関係性
多くの一般的なタスクはGPT-4oが性能を発揮する一方で複雑な推論タスクでは重要な進歩であると認識しているのでカウンターを1に戻してo1と呼ぶことにする。
残りは以下のリンクを参照
https://openai.com/index/introducing-openai-o1-preview/
https://openai.com/index/learning-to-reason-with-llms/

 o1-minio1-miniはSTEM、特に数学とコーディングに優れており、AIMEやCodeforcesなどの評価ベンチマークでo1の性能にほぼ匹敵します。 我々は、o1-miniが、広い世界の知識なしに推論を必要とするアプリケーションのための、より速く、費用対効果の高いモデルになることを期待しています。 今日、我々は、OpenAI o1-previewよりも80％安いコストでo1-miniをローンチします。
残りは以下のリンクを参照
https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

 モデル詳細
 モデル情報モデルの詳細は以下の通りでモデルの使い分けは
o1-preview
ドメインを越えて難しい問題を解決するために設計された推論モデル

o1-mini
より高速で安価な推論モデルで、特にコーディング、数学、科学に優れている。



MODEL
DESCRIPTION
CONTEXT WINDOW
MAX OUTPUT TOKENS
TRAINING DATA


o1-preview
Points to the most recent snapshot of the o1 model: o1-preview-2024-09-12

128,000 tokens
32,768 tokens
Up to Oct 2023

o1-preview-2024-09-12
Latest o1 model snapshot
128,000 tokens
32,768 tokens
Up to Oct 2023

o1-mini
Points to the most recent o1-mini snapshot: o1-mini-2024-09-12

128,000 tokens
65,536 tokens
Up to Oct 2023

o1-mini-2024-09-12
Latest o1-mini model snapshot
128,000 tokens
65,536 tokens
Up to Oct 2023

https://platform.openai.com/docs/models/o1 から
個人的にはMAX OUTPUT TOKENSが4oなどより多く設定されているのが気になっている
4oのモデル情報


MODEL
DESCRIPTION
CONTEXT WINDOW
MAX OUTPUT TOKENS
TRAINING DATA


gpt-4o

GPT-4o: Our high-intelligence flagship model for complex, multi-step tasks. GPT-4o is cheaper and faster than GPT-4 Turbo.
128,000 tokens
4,096 tokens
Up to Oct 2023

gpt-4o-2024-05-13
gpt-4o currently points to this version.
128,000 tokens
4,096 tokens
Up to Oct 2023

gpt-4o-2024-08-06
Latest snapshot that supports Structured Outputs

128,000 tokens
16,384 tokens
Up to Oct 2023

chatgpt-4o-latest
Dynamic model continuously updated to the current version of GPT-4o in ChatGPT.
128,000 tokens
16,384 tokens
Up to Oct 2023


o1-previewとo1-miniはChatGPT PlusユーザーとTier 5の開発者(API)が使用できる。
Plus ユーザー
o1-preview
30 messages/1week

o1-mini
50 messages/1week


Tier 5 開発者
rate limit of 20 RPM

ChatGPT Freeユーザーにはo1-miniを提供できるように計画中である。
これらのモデルは推論モデル(reasoning model)の初期プレビューであり、今後はモデルのアップデートに加え、ブラウジング、ファイルや画像のアップロード、その他の機能を追加する予定である。

 API使用時の注意事項ベータ版のため使用できないものがある
現状使用できないもの
画像入力
userとassistant messageのみ、system messageは使用できない
Streamingは不可
tools、function calling、response formatも使用できない
Logprobは使用できない

temperatureとtop_pとnは1に固定

presence_penaltyとfrequency_penaltyは0に固定
Batch APIとAssistants APIは対応してない

推論の方法は以下の通り(原文をDeepLで翻訳しただけ)
o1モデルは推論トークンを導入する。 モデルはこれらの推論トークンを使用して「考え」、プロンプトの理解を分解し、回答を生成するための複数のアプローチを検討する。 推論トークンを生成した後、モデルは目に見える完了トークンとして答えを生成し、そのコンテキストから推論トークンを破棄します。 ここに、ユーザーとアシスタント間のマルチステップ会話の例を示します。 各ステップからの入力トークンと出力トークンは引き継がれ、推論トークンは破棄されます。

なので最大出力トークン数が多いらしい

そして、最終出力のみしか出力されないので途中の推論(画像の点線より上)は出力に含まれない

(2024/09/14追記:これちょっと勘違いしてたので補足すると推論トークン部分がカットされるだけで複数回回答を生成してるのでは無いんじゃ無いかと思ってるが、本当のことはOpenAIのみぞ知る)
これまでのモデルではmax_tokensのパラメータは生成トークン数と出力(表示される)トークン数が同じだったが、o1系列は生成トークン数と出力(表示される)トークン数が異なるのでmax_completion_tokensパラメータによりモデル生成する全トークン数を制限できるようになる。一方でこれの値が低すぎると推論できないので25000トークンを指定することを推奨している。

 プロンプトのアドバイスこれまでのモデルにはない推論の仕組みがあるため、step-by-stepなどのプロンプトテクニックは推奨されない。以下にベストプラクティスを示す
プロンプトはシンプルで簡潔にする
詳細な情報ではなく、簡潔で明瞭に書くことがよい

Chain of Thought関連のプロンプトは避ける
モデルの内部で推論を行うので不要

区切り記号を使用
三重引用符、XMLタグ、セクションタイトルなどの区切り記号を使用して、入力の異なる部分を明確に示し、モデルが異なるセクションを適切に解釈できるようにします。
RAGでは追加のコンテキストを制限する
追加の情報を加える際には最も関連性の高い情報のみとする


exampleやcookbookなどはリンク の下の方にある

 コスト

Models
Input Tokens(per 1M token)
Output Tokens(per 1M token)


o1-preview
$15.00
$60.00

o1-mini
$3.00
$12.00

gpt-4o-2024-08-06
$2.50
$10.00

gpt-4o-mini
$0.150
$0.600

!o1系は推論部分も出力トークンに含まれ、コンテキストウィンドウにも加算される
上の通り推論過程も課金されるのでo1系はかなり割高かなって感じ

 感想OpenAIのやろうとしてることがなんとなくわかった感じがする。みんないい性能のLLMを考えようとしてOpenAIおっそいなって思ってた感じするけど、ずっとAGIに目指してやっていこうと思ってるのかなって思った。

 参考リンクhttps://openai.com/index/introducing-openai-o1-preview/

https://openai.com/index/learning-to-reason-with-llms/

https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

https://openai.com/api/pricing/

https://platform.openai.com/docs/models/o1

https://platform.openai.com/docs/guides/reasoning

MODEL	DESCRIPTION	CONTEXT WINDOW	MAX OUTPUT TOKENS	TRAINING DATA
o1-preview	Points to the most recent snapshot of the o1 model: `o1-preview-2024-09-12`	128,000 tokens	32,768 tokens	Up to Oct 2023
o1-preview-2024-09-12	Latest o1 model snapshot	128,000 tokens	32,768 tokens	Up to Oct 2023
o1-mini	Points to the most recent o1-mini snapshot: `o1-mini-2024-09-12`	128,000 tokens	65,536 tokens	Up to Oct 2023
o1-mini-2024-09-12	Latest o1-mini model snapshot	128,000 tokens	65,536 tokens	Up to Oct 2023

MODEL	DESCRIPTION	CONTEXT WINDOW	MAX OUTPUT TOKENS	TRAINING DATA
gpt-4o	GPT-4o: Our high-intelligence flagship model for complex, multi-step tasks. GPT-4o is cheaper and faster than GPT-4 Turbo.	128,000 tokens	4,096 tokens	Up to Oct 2023
gpt-4o-2024-05-13	gpt-4o currently points to this version.	128,000 tokens	4,096 tokens	Up to Oct 2023
gpt-4o-2024-08-06	Latest snapshot that supports Structured Outputs	128,000 tokens	16,384 tokens	Up to Oct 2023
chatgpt-4o-latest	Dynamic model continuously updated to the current version of GPT-4o in ChatGPT.	128,000 tokens	16,384 tokens	Up to Oct 2023

Models	Input Tokens(per 1M token)	Output Tokens(per 1M token)
o1-preview	$15.00	$60.00
o1-mini	$3.00	$12.00
gpt-4o-2024-08-06	$2.50	$10.00
gpt-4o-mini	$0.150	$0.600

Discussion

ログインするとコメントできます