【新登場】o3-miniが爆速かつ高性能なので徹底解説!プログラミングにはかなり良さそうです

2025/02/01に公開

o3-miniは、OpenAIが提供する「小型かつ高推論能力」に焦点を当てた最新の言語モデルです。特に科学(Science)、数学(Mathematics)、プログラミング(Coding)といったSTEM領域(科学(Science)、技術(Technology)、工学(Engineering)、数学(Mathematics)の頭文字をとった領域のこと)での推論に強みをもつ一方、応答速度やコスト効率が重視されています。

o3-miniとは

OpenAIは、推論(Reasoning)能力を重視した「o1」シリーズを以前から展開してきました。しかし 「o3」シリーズ では、さらに以下のような進化が見られます。

  • 高度なチェーン・オブ・ソート (Chain-of-Thought)
    “考えながら回答”する内部推論プロセスが強化され、数学や論理クエリへの正確性が向上。
  • Reasoning Effortの段階調整
    低・中・高 の3段階の「推論の深さ」を選べるため、速度重視か精度重視かを柔軟に切り替え可能。
  • 安全性の向上
    熟慮的アライメント (Deliberative Alignment) により、事前に定めた安全ガイドラインを踏まえた応答を生成。

「o3-mini」の特長

  • 高速応答
    応答速度が従来の小型モデル「o1-mini」より約24%高速化(平均応答: 約7.7秒 → o1-miniの平均10.16秒)
  • コスト効率
    トークン単価やサブスク料金などが大幅に抑えられており、ChatGPT無料ユーザーでも一部試用可能。
  • STEM最適化
    数学(AIME)・科学(GPQA)・プログラミング(Codeforcesなど)で高い性能を発揮。

ポイント:
o3-miniは「STEMに強い」「小型かつ高速」「コストが安い」という3点が大きなキーワードです。

[著者の感想]私はサービス開発者としてサービスに組み込むことを前提にしてLLMを評価するのですが、このo3-miniの速さはめちゃくちゃ速いです(笑) この速さはプログラミングやちょっとした問題解決において嬉しくなるほどのものなのでぜひ一度体験してみていただきたいです。

メイン機能と性能

数学性能


AIME 2024 (米国数学コンテスト) での正答率

  • 低い推論努力: o3-mini は o1-mini 相当
  • 中程度推論努力: o3-mini は o1 とほぼ同等 (83%前後)
  • 高い推論努力: o3-mini は o1 / o1-mini を上回る (87%超)

数式操作や方程式の解法など、手順が複雑な問題に対して、チェーン・オブ・ソートによるステップバイステップ解法を行います。

科学的推論

GPQA Diamond (博士レベルの科学問題)

  • 高精度モード (o3-mini-high) で約79.7%の正答率を達成。
  • 難易度の高い物理・化学・生物学分野の問題にも対応する“深い推論力”が強み。

プログラミング能力


Codeforces (競技プログラミング)

  • Eloスコア 2130 付近をマーク (o1-miniを上回り、o1に匹敵)
  • コード生成やバグ修正サジェストが向上
  • SWE-bench Verified でも最高水準のスコア

応答速度

  • 中モード (デフォルト): 約7.7秒
  • 低モード (速度重視): さらに高速化 (ただし難問の精度がやや下がる)
  • 高モード (深い推論重視): 応答時間が増えるがより高精度

無料版ChatGPTの場合は、トラフィック状況に応じて応答速度が変動するため、上記はあくまでも目安となります。

安全性

  • Deliberative Alignment (熟慮的整合性)
    回答が不適切にならないよう、内部で安全ガイドラインに沿ったフィルタリングと推論を行う仕組み。
  • 許可されていないコンテンツのブロック
    違法行為の助長や不適切な情報は基本的にブロックされ、意図的な脱獄プロンプトにも強い耐性を持つ。

料金体系と利用制限

ChatGPTユーザー向け

プラン 月額 利用可能モデル 1日あたりのメッセージ上限 その他特徴
Free $0 - GPT-4o
- o3-mini (試用的に一部)
個別制限 (例: 3h80回 / etc.) Reasonボタンからo3-miniを試用可能
Plus $20 - GPT-4o
- o3-mini / o3-mini-high
150メッセージ/日 (o3-miniに限る) 検索機能で最新Web情報を連携
Team $??? - 同上 150メッセージ/日 (o3-miniに限る) チーム向け追加管理機能
Pro $200 - GPT-4o
- o3-mini / o3-mini-high
- o1-pro等
無制限 大規模利用向け。最高推論性能を解放

ポイント:
Plus/Team での o3-mini 利用上限は、従来のo1-mini(1日50件)に比べ3倍(1日150件)に緩和。
Proプランの場合、o3-mini / o3-mini-high を無制限で利用できます。

API利用時の料金

推奨リファレンス価格例

  • 入力トークン: $1.10 / 1,000,000 トークン
  • 出力トークン: $4.40 / 1,000,000 トークン

Reasoning Effortごとの価格差

  • 同一モデルでも「高推論努力」を指定すると、計算リソースが増すため、若干割増料金となる場合があります。

API tiers (3–5)

  • 初期は Tiers 3–5 の開発者のみ利用可能。順次拡大予定。

注: 具体的な金額・レートは契約や利用地域によって変動する場合があります。必ず公式ドキュメントを確認してください。

新機能と技術的なポイント

Reasoning Effort (推論努力) オプション

  • low: 高速生成が必要なユースケース向け。複雑な問題では精度が下がる
  • medium (デフォルト): コスパと精度のバランスが良い
  • high: 数学・科学など複雑な問題に最適化。ただし応答までのレイテンシが増大

ありそうな質問(FAQ)

Q1. o3-miniは「o1」や「GPT-4o」と何が違うの?

  • o1: 汎用タスク全般をこなす大きめのモデル。広範な知識で対応する。
  • GPT-4o: さらにコストを抑えた汎用モデルで、推論力はやや控えめ。
  • o3-mini: STEM分野での推論に特化しながら、軽量・低コスト・高速という点が大きな強み。

Q2. 「o3-mini」と「o3-mini-high」の違いは?

  • o3-mini(中推論努力): 速度重視のバランス型。ほとんどのタスクでは十分高い性能。
  • o3-mini-high(高推論努力): 最適解を目指す高精度モード。数学やプログラミング等で難易度の高いタスクに有効。応答はやや遅くなるが、正答率向上が期待。

Q3. 画像解析が必要な場合はどうする?

  • o3-miniはテキスト専用。視覚タスクには「OpenAI o1」や別途画像認識APIを組み合わせる必要がある。

Q4. セキュリティ面は大丈夫?

熟慮的アライメント(Deliberative Alignment)を導入し、脱獄(jailbreak)リクエストや不正利用を防ぐための学習がなされている。
「o1」と同等レベルで厳格なレッドチームテストを通過。安全性評価は高い。

筆者の所感と今後の展望

  • STEM領域で優れたモデルというコンセプトは非常にしっくりくるモデルとなっている。
    • おすすめはPythonやNodeのスクリプトを作成する際、システムの設計やDB周りのあれこれに使ってみてほしい
      • 爆速で作れて笑ってしまう
    • プログラミングでもフロントエンドのUI/UXの部分は非常にシンプルに構築するイメージで、綺麗なUIを作りたい・いけてるモダンな実装をしたいと思ったときに優れているかというとClaude3.5Sonnetの方が良い気がした
    • システム的な言語理解能力は高いと思った。多くのLLM(非思考型の)では、与えた仕様の変数が多いほど漏れも発生しやすい印象だがo3-miniは結構漏らさない。しっかり作ってくれる
      • スタイルを除くシステムの叩き台を先にo3-miniに作らせて肉付けをClaudeなどでやっていくのが良いのかなと思っている

上記の感想から「綺麗」や「かっこいい」のような定性的な処理はあまり得意としないことから、サービスに埋め込むのもいわゆるインテリ理系の無難お兄さんにお願いするようなところで使うのが良いと思いました。

Discussion