📝
Reasoning best practicesを読む

2025/02/14に公開
OpenAIのドキュメントのReasoning best practicesに推論モデルのベストプラクティスが紹介されていたので翻訳して読んでみました。
GPTシリーズとOシリーズの違い
GPTシリーズとOシリーズの使い分け
ユースケース
推論モデルに対するプロンプト
などが説明されています。

尚、2025年2月14日時点の内容をもとにしているので最新のものとは内容が異なるかもしれません。

 Reasoning best practices推論モデルを使用するタイミングと、GPTモデルとの比較について学びます。
OpenAIは、推論モデル（例：o1、o3-mini）とGPTモデル（例：GPT-4o）の2種類のモデルを提供しています。これらのモデルファミリーは異なる動作をします。
このガイドでは、以下について説明します。
OpenAIの推論モデルと非推論GPTモデルの違い
推論モデルを使用するタイミング
推論モデルを効果的にプロンプトする方法

 推論モデル vs. GPTモデルGPTモデルと比較して、oシリーズモデルは異なるタスクに優れており、異なるプロンプトを必要とします。一方のモデルファミリーが他方より優れているわけではなく、単に異なるだけです。
oシリーズモデル（"the planners"）は、複雑なタスクについてより長く、より深く考えるようにトレーニングされており、戦略立案、複雑な問題の解決策の計画、大量の曖昧な情報に基づいた意思決定に効果的です。これらのモデルは、高い精度と正確さでタスクを実行することもできるため、数学、科学、エンジニアリング、金融サービス、法律サービスなど、通常は人間の専門家を必要とする分野に最適です。
一方、低レイテンシで費用対効果の高いGPTモデル（"the workhorses"）は、単純な実行のために設計されています。アプリケーションでは、oシリーズモデルを使用して問題解決の戦略を計画し、GPTモデルを使用して特定のタスクを実行することがあります。特に、速度とコストが完全な精度よりも重要な場合に有効です。

 選択方法ユースケースにとって最も重要なことは何ですか？

速度とコスト → GPTモデルはより高速で、コストが低い傾向があります

明確に定義されたタスクの実行 → GPTモデルは、明示的に定義されたタスクを適切に処理します

精度と信頼性 → oシリーズモデルは、信頼できる意思決定者です

複雑な問題解決 → oシリーズモデルは、曖昧さと複雑さを克服します
タスクの完了において速度とコストが最も重要な要素であり、ユースケースが単純で明確に定義されたタスクで構成されている場合は、GPTモデルが最適です。ただし、精度と信頼性が最も重要な要素であり、非常に複雑で複数ステップの問題を解決する必要がある場合は、oシリーズモデルが適している可能性があります。
ほとんどのAIワークフローでは、両方のモデルを組み合わせて使用します。エージェント的な計画と意思決定にはoシリーズ、タスク実行にはGPTシリーズを使用します。
GPTモデルはoシリーズモデルと相性が良い
GPT-4oおよびGPT-4o miniモデルは、注文の詳細を顧客情報と照合し、注文の問題点と返品ポリシーを特定し、これらすべてのデータポイントをo3-miniにフィードして、ポリシーに基づいて返品の実現可能性に関する最終決定を行います。

 推論モデルを使用するタイミング以下は、OpenAIの顧客および社内で観察された、成功した使用パターンのいくつかです。これは、考えられるすべてのユースケースの包括的なレビューではなく、oシリーズモデルをテストするための実践的なガイダンスです。
推論モデルを使用する準備はできましたか？ クイックスタートに進んでください →

 1. 曖昧なタスクのナビゲート推論モデルは、限られた情報や異種の情報を取得し、簡単なプロンプトでユーザーの意図を理解し、指示のギャップを処理することに特に優れています。実際、推論モデルは、教育を受けていない推測をしたり、情報のギャップを埋めようとしたりする前に、明確化のための質問をすることがよくあります。
「o1の推論機能により、当社のマルチエージェント
プラットフォームMatrixは、複雑なドキュメントを
処理する際に、網羅的で、適切にフォーマットされ、
詳細な応答を生成できます。
たとえば、o1は、基本的なプロンプトで、Matrixが
信用契約の制限付き支払い能力の下で利用可能な
バスケットを簡単に識別できるようにしました。
以前のモデルは、これほど高性能ではありません。
o1は、他のモデルと比較して、信用契約書の52%の
複雑なプロンプトでより強力な結果をもたらしました。」

—Hebbia、法律および金融向けのAIナレッジプラットフォーム企業


 2. 干し草の山の中の針を見つける大量の非構造化情報を渡す場合、推論モデルは、質問に答えるために関連性の高い情報のみを理解し、抽出することに優れています。
「企業の買収を分析するために、o1は契約書やリース契約書
など、数十の企業文書をレビューし、取引に影響を与える
可能性のあるトリッキーな条件を見つけました。
モデルは、主要な用語にフラグを立てるように指示され、
その過程で脚注にある重要な「支配権の変更」条項を
特定しました。会社が売却された場合、7,500万ドルの
ローンを直ちに返済しなければならないというものです。
o1の細部への細心の注意により、当社のAIエージェントは、
ミッションクリティカルな情報を特定することで、
金融専門家をサポートできます。」

—Endex、AI金融インテリジェンスプラットフォーム

 3. 大規模なデータセット全体の関係性とニュアンスを見つける推論モデルは、法律契約、財務諸表、保険金請求など、何百ページにもわたる密度の高い非構造化情報を持つ複雑なドキュメントを推論することに特に優れていることがわかりました。モデルは、ドキュメント間の類似点を引き出し、データに示されている暗黙の真実に基づいて意思決定を行うことに特に優れています。
「税務調査では、最終的で説得力のある回答を作成する
ために、複数のドキュメントを統合する必要があります。
GPT-4oをo1に置き換えたところ、o1はドキュメント間
の相互作用を推論して、単一のドキュメントでは明らか
ではない論理的な結論に到達することがはるかに
優れていることがわかりました。その結果、o1に切り
替えることで、エンドツーエンドのパフォーマンスが
4倍向上しました。これは驚くべきことです。」

—Blue J、税務調査用AIプラットフォーム
推論モデルは、ニュアンスのあるポリシーとルールを推論し、それらを当面のタスクに適用して、合理的な結論に到達することにも長けています。
「財務分析では、アナリストは株主資本に関する
複雑なシナリオに取り組むことが多く、関連する法的な
複雑さを理解する必要があります。
私たちは、異なるプロバイダーの約10のモデルを、
挑戦的だが一般的な質問でテストしました。
ファンドレイズは既存の株主にどのように影響するか、
特に彼らが希薄化防止特権を行使する場合にどうなるか？
これは、資金調達前後の評価額を推論し、循環的な
希薄化ループに対処する必要がありました。
これは、トップの金融アナリストが20〜30分かけて
理解するようなものです。o1とo3-miniはこれを完璧に
行えることがわかりました！モデルは、10万ドルの
株主への影響を示す明確な計算表も作成しました。」

–BlueFlame AI、投資管理用AIプラットフォーム

 4. 複数ステップのエージェント的計画推論モデルは、エージェント的な計画と戦略策定に不可欠です。推論モデルを「プランナー」として使用し、問題に対する詳細な複数ステップのソリューションを作成し、高いインテリジェンスと低レイテンシのどちらが最も重要かに基づいて、各ステップに適したGPTモデル（「実行者」）を選択および割り当てる場合に成功が見られます。
「私たちは、エージェントインフラストラクチャの
プランナーとしてo1を使用し、ワークフロー内の
他のモデルを編成して、複数ステップのタスクを
完了させます。o1は、データ型を選択し、大きな質問を
小さなチャンクに分割することに非常に優れており、
他のモデルが実行に集中できるようにしています。」

—Argon AI、製薬業界向けAIナレッジプラットフォーム
「o1は、仕事用のAIアシスタントであるLindyの
多くのエージェント的ワークフローを強化しています。
このモデルは、関数呼び出しを使用してカレンダーや
メールから情報を取得し、会議のスケジュール、メール
の送信、その他の日常業務の管理を自動的に支援します。
以前に問題を引き起こしていたすべてのエージェント的
ステップをo1に切り替え、エージェントが基本的に
完璧になるのを一夜にして観察しました！」

—Lindy.AI、仕事用AIアシスタント

 5. 視覚的推論現在のところ、o1は、視覚機能をサポートする唯一の推論モデルです。GPT-4oと異なる点は、o1は、曖昧な構造を持つ図表や表、画質の悪い写真など、最も難しいビジュアルでさえも把握できることです。
「私たちは、高級ジュエリーの模造品、絶滅危惧種、
規制物質など、オンライン上の何百万もの製品の
リスクとコンプライアンスのレビューを自動化して
います。GPT-4oは、最も難しい画像分類タスクで
50%の精度に達しました。o1は、パイプラインを
変更することなく、88%という驚異的な精度を
達成しました。」

—Safetykit、AIマーチャント監視プラットフォーム
OpenAI社内のテストでは、o1は非常に詳細な建築図面から備品や材料を特定し、包括的な部品表を生成できることが確認されています。私たちが観察した最も驚くべきことの1つは、o1が、建築図面の1ページにある凡例を取得し、明示的な指示なしに別のページに正しく適用することで、異なる画像間の類似点を描くことができることです。以下に示すように、4x4 PT木製支柱について、o1は凡例に基づいて「PT」が圧力処理（pressure treated）の略であることを認識しました。

oシリーズモデルは建築図面の詳細を正しく読み取る

 6. コード品質のレビュー、デバッグ、改善推論モデルは、大量のコードをレビューおよび改善することに特に効果的であり、モデルのレイテンシが高いため、多くの場合バックグラウンドでコードレビューを実行します。
「私たちは、GitHubやGitLabなどのプラットフォームで
自動化されたAIコードレビューを提供しています。
コードレビュープロセスは本質的にレイテンシの影響を
受けませんが、複数のファイルにわたるコードの差分を
理解する必要があります。これはo1が本当に優れている
点です。人間のレビュアーが見逃す可能性のある
コードベースへの小さな変更を確実に検出できます。
oシリーズモデルに切り替えた後、製品の
コンバージョン率を3倍に増やすことができました。」

—CodeRabbit、AIコードレビューのスタートアップ
GPT-4oとGPT-4o miniは、レイテンシが低いためコードの記述に適している可能性がありますが、レイテンシの影響をわずかに受けにくいユースケースでは、o3-miniがコード生成で急上昇するのも確認されています。
「o3-miniは、一貫して高品質で決定的なコードを生成
し、問題が明確に定義されていれば、非常に難しい
コーディングタスクであっても、非常に頻繁に正しい
ソリューションに到達します。他のモデルは小規模で
迅速なコードイテレーションにのみ役立つ可能性が
ありますが、o3-miniは複雑なソフトウェア設計
システムの計画と実行に優れています。」

—Codeium、AIを活用したコード拡張機能のスタートアップ

 7.他のモデルの応答の評価とベンチマーク推論モデルは、他のモデルの応答のベンチマークと評価にも優れていることがわかりました。データ検証は、特にヘルスケアなどの機密性の高い分野では、データセットの品質と信頼性を確保するために重要です。従来の検証方法では、事前定義されたルールとパターンを使用しますが、o1やo3-miniのような高度なモデルは、コンテキストを理解し、データについて推論して、より柔軟でインテリジェントな検証アプローチを実現できます。
「多くの顧客は、Braintrustの評価プロセスの
一部としてLLM-as-a-judgeを使用しています。
たとえば、ヘルスケア企業は、gpt-4oのような
主力モデルを使用して患者の質問を要約し、
o1で要約の品質を評価する場合があります。
あるBraintrustの顧客は、4oでは0.12だった判定の
F1スコアが、o1では0.74になったのを確認しました！
これらのユースケースでは、最も難しく、最も複雑な
採点タスクにおいて、o1の推論が、完了における
ニュアンスの違いを見つける上でゲームチェンジャー
であることがわかりました。」

—Braintrust、AI評価プラットフォーム

 推論モデルを効果的にプロンプトする方法これらのモデルは、単純なプロンプトで最高のパフォーマンスを発揮します。「段階的に考える」ようにモデルに指示するなど、一部のプロンプトエンジニアリング手法は、パフォーマンスを向上させない可能性があります（場合によっては妨げることさえあります）。以下のベストプラクティスを参照するか、 プロンプト例から始めてください。
開発者メッセージは新しいシステムメッセージです: o1-2024-12-17以降、推論モデルは、モデル仕様に記載されているコマンドチェーンの動作に合わせて、システムメッセージではなく開発者メッセージをサポートします。
プロンプトをシンプルかつ直接的に保つ: モデルは、簡潔で明確な指示を理解し、応答することに優れています。
CoT(Chain of thought)プロンプトを避ける: これらのモデルは内部で推論を実行するため、「段階的に考える」または「推論を説明する」ようにプロンプトする必要はありません。
区切り文字を使用して明確にする: マークダウン、XMLタグ、セクションタイトルなどの区切り文字を使用して、入力の異なる部分を明確に示し、モデルが異なるセクションを適切に解釈できるようにします。
最初はゼロショットを試し、必要な場合はフューショットを試す: 推論モデルは、多くの場合、良好な結果を生成するためにフューショットの例を必要としないため、最初は例なしでプロンプトを作成してみてください。目的の出力についてより複雑な要件がある場合は、プロンプトに入力と目的の出力の例をいくつか含めると役立つ場合があります。ただし、例とプロンプトの指示が非常に密接に一致していることを確認してください。両者の間に矛盾があると、悪い結果が生じる可能性があります。
具体的なガイドラインを提供する: モデルの応答を明示的に制約したい場合（「500ドル未満の予算でソリューションを提案する」など）、プロンプトでこれらの制約を明示的に概説します。
最終目標を非常に具体的にする: 指示では、成功した応答のための非常に具体的なパラメータを示し、モデルが成功基準に一致するまで推論と反復を続けるように促します。
マークダウン形式: o1-2024-12-17以降、APIの推論モデルは、マークダウン形式の応答の生成を避けます。応答にマークダウン形式が必要な場合は、開発者メッセージの最初の行に文字列Formatting re-enabledを含めて、モデルに通知します。

 その他のリソースさらにインスピレーションを得るには、サンプルコードとサードパーティリソースへのリンクを含むOpenAI Cookbookにアクセスするか、OpenAIのモデルと推論機能の詳細をご覧ください。
Meet the models
Reasoning guide
How to use reasoning for validation
Video course: Reasoning with o1
Papers on advanced prompting to improve reasoning
Reasoning best practices

推論モデル vs. GPTモデル

選択方法

推論モデルを使用するタイミング

1. 曖昧なタスクのナビゲート

2. 干し草の山の中の針を見つける

3. 大規模なデータセット全体の関係性とニュアンスを見つける

4. 複数ステップのエージェント的計画

5. 視覚的推論

6. コード品質のレビュー、デバッグ、改善

7.他のモデルの応答の評価とベンチマーク

推論モデルを効果的にプロンプトする方法

その他のリソース

Discussion