【2026年最新版】OpenAI公式に学ぶ、AIを完全制御する「プロンプトエンジニアリング鉄則」
要約したのに、結論が消える。
TODOが「次回確認」で終わる。
表で出せと言ったのに、文章で返る。
……これ、あなたのせいじゃないです。
プロンプトが「お願い」になっていて、仕様になってないだけ。
OpenAIの Optimizing LLM Accuracy は、Prompt Engineering guideの戦略をベースに、改善の手を 6つ に整理しています。(OpenAI Platform)
この記事は、その6戦略を「明日から再現できる形」に落とします。
まず“同じ素材”で殴る:Before / After
題材は、ありがちな議事メモ。
来週までにAPIのレート制限を見直す。現状は429が多い。
原因は一部クライアントのリトライ暴走っぽい。
対応案:バックオフ導入、上限値の見直し、ログ追加。
担当は田中。期限は金曜。
Before(だめ)
これを要約して、TODOも出して
After(よい:仕様で縛る)
あなたはエンジニア向けの書記です。次を実行してください。
1) 要約(結論→根拠 の順で3行)
2) TODO(担当|期限|内容 の3列テーブル。ヘッダー必須)
3) 参照:本文からの引用を1つ(原文そのまま)
指示は先頭、本文は ### で分離してください。
###
(ここにメモ)
###
「指示を先頭に置き、### や """ で指示とコンテキストを区切る」はHelp Centerのベストプラクティスに明記されています。(OpenAI Help Center)
出力例(イメージ)
要約:
レート制限見直しが必要。429多発の原因はリトライ暴走の疑い。
TODO:
| 担当 | 期限 | 内容 |
|---|---|---|
| 田中 | 金曜 | クライアントのバックオフ導入を検討・方針化 |
| 田中 | 金曜 | 上限値(rate limit)の見直し案を作る |
| 田中 | 金曜 | 429の発生状況が追えるログを追加する |
引用:
「原因は一部クライアントのリトライ暴走っぽい。」
この「再現性」が、今日のゴールです。
1) Write clear instructions(明確に書く)
AIは「察してくれる先輩」じゃなく、文脈ゼロの新人です。(OpenAI Platform)
やることは3つだけ。
- 目的(何が成功?)
- 制約(やる/やらない)
- 出力形式(テーブル/JSON/順序)
そして区切る。
「指示は先頭、本文は###や"""で分離」は公式の勝ち筋。(OpenAI Help Center)
2) Provide reference text(根拠を渡す)
LLMに「知ってる?」と聞くと、それっぽく補完しがち。
だから「これに基づいて答えて」に変える。(OpenAI Platform)
ここはRAGではありません。
RAGは「Retrieving content to Augment your LLM’s prompt before Generating an answer」
つまり “取得して、プロンプトを拡張してから、答えを生成する” プロセスだと定義されています。(OpenAI Platform)
でも方向性は同じ。
“参照に基づいて答える”習慣が、まず土台です。
次の段階:この参照テキストを「毎回貼る」のがつらくなったら、そこで初めてRAG(取得)を検討する。(OpenAI Platform)
3) Split complex tasks(分割する)
「要約して、TODO出して、英訳して、JSONで」
これ、1プロンプトに詰めるほど壊れます。(OpenAI Platform)
分割の型はこれ。
Step1: 要約(3行)
Step2: TODO抽出(テーブル)
Step3: 形式チェック(列/順序/空欄なし)
ズレたら、直す場所が見える。
それだけで勝てます。
4) Give GPTs time to think(考える時間を与える)
ここ、盛ると燃えます。
なので 公式の言い方に寄せます。
Reasoning best practices はこう整理しています:
- reasoningモデルは straightforward(率直) なプロンプトが基本
- 「think step by step」は性能を上げないことがあり、妨げることもある
- 思考の全文(chain-of-thought)を求めない(「理由を全部説明して」系を避ける)
- delimiter(区切り)を使う (OpenAI Platform)
つまりこう。
“考えさせる”はOK。
“考えを全部しゃべらせる”は不要。 (OpenAI Platform)
oシリーズ(推論モデル:o1 / o3 など)
方針を3つの箇条書きで出してから、最終回答。
思考の詳細ログは不要。
(方針=短いアウトラインだけもらう)
GPT-5.2(GPT-5系:reasoning.effortで調整)
GPT-5.2は reasoning.effort のデフォルトが none。
必要なら medium へ上げて試す、とガイドにあります。(OpenAI Platform)
さらに none でも、品質を上げるには「think / outline steps」を促すのが有効、とも書かれています。(OpenAI Platform)
最初に「方針(3行)」→次に「答え」。
長い思考ログは不要。
(実務メモ)長文化はコスト/上限の面で不利になりやすいです。
max_output_tokensは可視出力だけでなく reasoning tokens も含む「出力上限」なので、長いほど当たりやすい。(OpenAI Platform)
そして地雷回避:会話の引き継ぎ
ここ、覚えておく2行です。
毎ターン渡すもの:目的/制約/出力形式(=仕様)
引き継ぐもの:会話状態(previous_response_id 等) (OpenAI Platform)
previous_response_id を使っても、前回の instructions(指示文)は引き継がれない、とAPIリファレンスに明記されています。(OpenAI Platform)
だから、こうなる。
「仕様は毎回、短くてもいいから必ず書く」
これだけで、ブレが激減します。
5) Use external tools(道具を使う)
6戦略の1つとして「Use external tools」が表に入っています。(OpenAI Platform)
やりたいのはこれ。
- 事実の最新性 → Web search
- 計算/集計 → Code interpreter
- 社内DB/外部API → Function calling
APIでは tools を有効にすると、モデルが必要に応じてツールを使って回答を拡張できる、と Using tools に書かれています。(OpenAI Platform)
Web検索ツールのガイドも公式にあります。(OpenAI Platform)
「暗算させない」。
エンジニアの勝ち方です。
6) Test changes systematically(テストする)
改善の最後は、結局これ。
6戦略にも「Test changes systematically」が入っています。(OpenAI Platform)
ここまで公式
Evaluation best practices は、ざっくりこう進めろと言っています。
- objective(目的)を定義
- dataset(データ)を集め
- metrics(測り方)を決めて
- 比較して回す (OpenAI Platform)
そして 「vibe-based evals(なんか良さそう)」はアンチパターン。(OpenAI Platform)
ここから現場の最小メトリクス
いきなり1000件いらない。まず10件。
例:要約タスクのゴールデン(1件だけ)
- 入力:上の議事メモ
- 期待:結論が1行で書かれ、TODOが3列テーブル、引用が1つ
- NG:TODOが文章、期限が消える、引用が改変される
この「期待」と「NG」を10個作るだけで、プロンプトはコードみたいに育ちます。
コピペ用:仕様書テンプレ(これだけでブレが減る)
# 目的(成功条件)
# 制約(やらないこと)
# 出力形式(表/JSON/順序)
# 参考(根拠テキストがあるなら貼る)
""" ... """
# 手順(分割)
Step1:
Step2:
# ツール(必要なら)
- web_search
- code_interpreter
- function_call
# テスト(代表入力と期待)
- 入力:
期待:
NG:
最後に:プロンプトは“お願い”じゃなく“インタフェース”
プロンプトは、魔法の呪文じゃない。
仕様のあるAPIです。
「何を」「どの形式で」「何を根拠に」
ここまで書けた瞬間、AIは“気まぐれな同僚”から、実装可能な部品になります。
あなたの仕事は、AIを賢くすることじゃない。
あなたの要求を、再現できる形に落とすことです。
参考文献
- Optimizing LLM Accuracy(6戦略の表/RAGの定義も含む)(OpenAI Platform)
- Best practices for prompt engineering(### / """ で指示と本文を分離)(OpenAI Help Center)
- Reasoning best practices(straightforward prompts/step-by-stepが不要・妨げることも/delimiter推奨)(OpenAI Platform)
- Using GPT-5.2(reasoning.effort の default none/必要なら medium/outline促し)(OpenAI Platform)
- Responses API Reference(
max_output_tokensは可視出力+reasoning tokens/previous_response_idでも instructions 非継承)(OpenAI Platform) - Using tools(tools有効化と tool_choice/Function calling 等の導線)(OpenAI Platform)
- Web search guide(Web検索ツール)(OpenAI Platform)
- Evaluation best practices(objective→dataset→metrics/vibe-based evalsはアンチパターン)(OpenAI Platform)
Discussion