Closed5

結局、推論モデル(Reasoning Model)って何がいいの?

OsamuOsamu
  • 結局推論モデルって今までのモデルと何が違うのか?
  • 推論モデルが得意、または苦手とするものは何か?
OsamuOsamu

そもそも推論モデルとは?

思考を何度も重ねるモデルのこと。

簡単に言うとAIが思考を重ねて回答を生成するモデルです。
ChatGPTであればo3やo4-mini、Geminiであれば、Gemini 2.5 Pro, Gemini 2.5 Flashが推論モデルに該当します。

何度も自分の中で修正を繰り返しながら回答している

出力を一度で決め込まず、思考プロセスを内部で何度も走らせ、間違いを自己修正しながら最終回答を選択。
「考えて→チェックして→修正する」ループが内蔵されているのが最大の違い

OsamuOsamu

OpenAIから出てる推論モデルのベストプラクティスをざっと読んでみる

GPTモデルとの違い

そもそも推論モデル(o3, o4-mini, ..)とGPTモデル(GPT-4.1, GPT-4.5, ..)では違うらしい。

OpenAI offers two types of models: reasoning models (o3 and o4-mini, for example) and GPT models (like GPT-4.1). These model families behave differently.

それぞれの違いはざっと以下の感じ

  • 推論モデル:複雑なタスクに対して深く考えるようなものに向いている
    • 戦略立案
    • 複雑な問題に対する解決策の計画
    • 大量の曖昧な情報に基づく意思決定
    • 人間の専門家が必要となる分野に最適(数学、科学、工学、金融、法務)
  • GPTモデル:シンプルで処理速度が速く、コストを抑えられるため、明確に定義されたタスクの遂行に向いている
    • 提携業務
    • 単発の質問回答

We trained our o-series models (“the planners”) to think longer and harder about complex tasks, making them effective at strategizing, planning solutions to complex problems, and making decisions based on large volumes of ambiguous information. These models can also execute tasks with high accuracy and precision, making them ideal for domains that would otherwise require a human expert—like math, science, engineering, financial services, and legal services.
On the other hand, our lower-latency, more cost-efficient GPT models (“the workhorses”) are designed for straightforward execution. An application might use o-series models to plan out the strategy to solve a problem, and use GPT models to execute specific tasks, particularly when speed and cost are more important than perfect accuracy.

ChatGPTに聞いてみるとこんな感じのイメージになるらしい

推論モデルを使用するタイミング

OpenAIやOpenAIの顧客から得られた、推論モデルを使用するタイミングの例

  1. ユーザーの意図を汲み取る曖昧なタスク処理
  2. 大量の情報の中から重要な点を抜き出す
  3. 大量の情報の中から関係性とニュアンスを見つける
  4. マルチエージェントのプランナー
    • どのエージェントに何をさせるかのタスク作成と優先度決めができる
  5. 視覚による推論
    • 構造が曖昧な表、画質の悪い写真、理解が難しい画像を理解できる
  6. コードレビュー、デバッグ、改善
  7. 他のモデル応答の評価とベンチまーう

推論モデルを上手にプロンプトするには

推論モデルは完結なプロンプトで最も高いパフォーマンスを発揮する
→ 「think step by step」などの一般的なプロンプトはパフォーマンスの向上につながらない場合がある

  • プロンプトはシンプルで直接的にする
  • chain-of-thought promptsは無理に使用しない
  • Markdown, XML, セクションタイトルを使って、明確な入力箇所を分ける
  • まずはzero-shot、必要な時にfew-shot
  • モデルが守るべき制約や条件を提示する
  • 最終目的を示す
OsamuOsamu

他の人の事例を見て遊んでみる

遊んでみた

このプロンプトを入れると全く理解できないものが出力される

https://x.com/fladdict/status/1914977745882292458

ファクトチェック

https://x.com/SuguruKun_ai/status/1915265849662832765

クレーンゲームの攻略

https://x.com/paji_a/status/1916252515655684197

難しい漢字の書き方、ビッグバンのシュミレーション、グラフの作成

https://x.com/paji_a/status/1917337681501249965

手相占い

https://x.com/masahirochaen/status/1914120830331789802

このスクラップは4ヶ月前にクローズされました