🌐

OpenAI o1, o1-miniモデルの内容まとめ

2024/09/13に公開

概要

2024/09/12(現地時間)にOpenAIが新たなモデルo1o1-miniを発表しました。いろいろ気になって調べたので個人的にまとめておきます。ちなみにStrawberryとかQ*とか言われてたモデルらしいですね

モデルの特徴

o1

新たなモデルo1は回答により時間をかけて答えるモデルになっており、複雑なタスクの推論して科学、コーディング、数学の分野において従来のモデルより優れた性能を発揮する。

  • それぞれの分野でのテスト結果
    • 科学分野
      • 物理学、生物学、化学の問題のベンチマーク(GPQA)において博士より良い成績
    • コーティング
      • プログラミング問題(Codeforces)では89th percentile
    • 数学
      • 米国数学オリンピック(AIME)の予選では上位500人入り
        テスト性能

モデルは大規模な強化学習アルゴリズムを使用してChain of Thoughtによりどのように推論するのかを教えた。o1の性能は訓練時間とテスト実行時間(モデルの思考時間?)を長くするとより性能が上がり、このスケーリングの制約はLLMの事前学習とは異なっているので引き続き調査中である。

時間と性能の関係性

多くの一般的なタスクはGPT-4oが性能を発揮する一方で複雑な推論タスクでは重要な進歩であると認識しているのでカウンターを1に戻してo1と呼ぶことにする。

残りは以下のリンクを参照

o1-mini

o1-miniはSTEM、特に数学とコーディングに優れており、AIMEやCodeforcesなどの評価ベンチマークでo1の性能にほぼ匹敵します。 我々は、o1-miniが、広い世界の知識なしに推論を必要とするアプリケーションのための、より速く、費用対効果の高いモデルになることを期待しています。 今日、我々は、OpenAI o1-previewよりも80%安いコストでo1-miniをローンチします。

残りは以下のリンクを参照

モデル詳細

モデル情報

モデルの詳細は以下の通りでモデルの使い分けは

  • o1-preview
    • ドメインを越えて難しい問題を解決するために設計された推論モデル
  • o1-mini
    • より高速で安価な推論モデルで、特にコーディング、数学、科学に優れている。
MODEL DESCRIPTION CONTEXT WINDOW MAX OUTPUT TOKENS TRAINING DATA
o1-preview Points to the most recent snapshot of the o1 model: o1-preview-2024-09-12 128,000 tokens 32,768 tokens Up to Oct 2023
o1-preview-2024-09-12 Latest o1 model snapshot 128,000 tokens 32,768 tokens Up to Oct 2023
o1-mini Points to the most recent o1-mini snapshot: o1-mini-2024-09-12 128,000 tokens 65,536 tokens Up to Oct 2023
o1-mini-2024-09-12 Latest o1-mini model snapshot 128,000 tokens 65,536 tokens Up to Oct 2023

https://platform.openai.com/docs/models/o1 から

個人的にはMAX OUTPUT TOKENSが4oなどより多く設定されているのが気になっている

4oのモデル情報
MODEL DESCRIPTION CONTEXT WINDOW MAX OUTPUT TOKENS TRAINING DATA
gpt-4o GPT-4o: Our high-intelligence flagship model for complex, multi-step tasks. GPT-4o is cheaper and faster than GPT-4 Turbo. 128,000 tokens 4,096 tokens Up to Oct 2023
gpt-4o-2024-05-13 gpt-4o currently points to this version. 128,000 tokens 4,096 tokens Up to Oct 2023
gpt-4o-2024-08-06 Latest snapshot that supports Structured Outputs 128,000 tokens 16,384 tokens Up to Oct 2023
chatgpt-4o-latest Dynamic model continuously updated to the current version of GPT-4o in ChatGPT. 128,000 tokens 16,384 tokens Up to Oct 2023

o1-previewとo1-miniはChatGPT PlusユーザーとTier 5の開発者(API)が使用できる。

  • Plus ユーザー
    • o1-preview
      • 30 messages/1week
    • o1-mini
      • 50 messages/1week
  • Tier 5 開発者
    • rate limit of 20 RPM

ChatGPT Freeユーザーにはo1-miniを提供できるように計画中である。

これらのモデルは推論モデル(reasoning model)の初期プレビューであり、今後はモデルのアップデートに加え、ブラウジング、ファイルや画像のアップロード、その他の機能を追加する予定である。

API使用時の注意事項

ベータ版のため使用できないものがある

  • 現状使用できないもの
    • 画像入力
    • userとassistant messageのみ、system messageは使用できない
    • Streamingは不可
    • tools、function calling、response formatも使用できない
    • Logprobは使用できない
    • temperaturetop_pnは1に固定
    • presence_penaltyfrequency_penaltyは0に固定
    • Batch APIとAssistants APIは対応してない

推論の方法は以下の通り(原文をDeepLで翻訳しただけ)

o1モデルは推論トークンを導入する。 モデルはこれらの推論トークンを使用して「考え」、プロンプトの理解を分解し、回答を生成するための複数のアプローチを検討する。 推論トークンを生成した後、モデルは目に見える完了トークンとして答えを生成し、そのコンテキストから推論トークンを破棄します。 ここに、ユーザーとアシスタント間のマルチステップ会話の例を示します。 各ステップからの入力トークンと出力トークンは引き継がれ、推論トークンは破棄されます。

なので最大出力トークン数が多いらしい
そして、最終出力のみしか出力されないので途中の推論(画像の点線より上)は出力に含まれない
(2024/09/14追記:これちょっと勘違いしてたので補足すると推論トークン部分がカットされるだけで複数回回答を生成してるのでは無いんじゃ無いかと思ってるが、本当のことはOpenAIのみぞ知る)

これまでのモデルではmax_tokensのパラメータは生成トークン数と出力(表示される)トークン数が同じだったが、o1系列は生成トークン数と出力(表示される)トークン数が異なるのでmax_completion_tokensパラメータによりモデル生成する全トークン数を制限できるようになる。一方でこれの値が低すぎると推論できないので25000トークンを指定することを推奨している。

プロンプトのアドバイス

これまでのモデルにはない推論の仕組みがあるため、step-by-stepなどのプロンプトテクニックは推奨されない。以下にベストプラクティスを示す

  • プロンプトはシンプルで簡潔にする
    • 詳細な情報ではなく、簡潔で明瞭に書くことがよい
  • Chain of Thought関連のプロンプトは避ける
    • モデルの内部で推論を行うので不要
  • 区切り記号を使用
    • 三重引用符、XMLタグ、セクションタイトルなどの区切り記号を使用して、入力の異なる部分を明確に示し、モデルが異なるセクションを適切に解釈できるようにします。
    • RAGでは追加のコンテキストを制限する
      • 追加の情報を加える際には最も関連性の高い情報のみとする

exampleやcookbookなどはリンク の下の方にある

コスト

Models Input Tokens(per 1M token) Output Tokens(per 1M token)
o1-preview $15.00 $60.00
o1-mini $3.00 $12.00
gpt-4o-2024-08-06 $2.50 $10.00
gpt-4o-mini $0.150 $0.600

上の通り推論過程も課金されるのでo1系はかなり割高かなって感じ

感想

OpenAIのやろうとしてることがなんとなくわかった感じがする。みんないい性能のLLMを考えようとしてOpenAIおっそいなって思ってた感じするけど、ずっとAGIに目指してやっていこうと思ってるのかなって思った。

参考リンク

https://openai.com/index/introducing-openai-o1-preview/
https://openai.com/index/learning-to-reason-with-llms/
https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/
https://openai.com/api/pricing/
https://platform.openai.com/docs/models/o1
https://platform.openai.com/docs/guides/reasoning

Discussion