Open7
GPT-4.1 の調査

概要
2025/04/15,OpenAI から新しいモデル「GPT-4.1」,「GPT-4.1 mini」,「GPT-4.1 nano」がリリースされた(Knowledge cutoff は 2024年6月).以下に特徴を述べる.
- GPT-4.1 はGPT-4o の上位互換.
- GPT-4.1 mini は,多くのベンチマークで GPT-4o を上回る.
- コーディング能力 (SWEベンチ) や指示追従性も向上.
- Long Context でもタスクに関する詳細情報を(入力内の位置に依らず)抽出できる.
- 画像の理解能力も向上.
本モデルファミリーは,API 経由でのみ利用可能.また,GPT-4.5 preview は廃止される予定.
official sources

Agent 実装時のベストプラクティス
システムプロンプト
Agent 実装時のシステムプロンプトには,持続性・Tool Calling・計画,という3つの主要な説明を含めると良い.(以下,プロンプト例の和訳)
## 継続性
あなたはエージェントです - ユーザーの問い合わせが完全に解決されるまで継続してください。問題が解決されたと確信できる場合にのみ、あなたのターンを終了してユーザーに戻してください。
## ツール呼び出し
ユーザーのリクエストに関連するファイルの内容やコードベース構造について確信が持てない場合は、ツールを使用してファイルを読み取り、関連情報を収集してください。推測したり答えを作り上げたりしないでください。
## 計画
各関数呼び出しの前に広範囲に計画を立て、前の関数呼び出しの結果について徹底的に振り返る必要があります。関数呼び出しのみでこのプロセス全体を行わないでください。それは問題を解決し、洞察力を持って考える能力を損なう可能性があります。
Tool Call
Tool Call 時,ツールフィールド(ツール名,ツールの説明,引数の説明)のみを使用すると,よりパフォーマンスが向上する.(GPT-4.1では,APIリクエストで引数として渡されるツールを効果的に活用するための Training を強化したので,システムプロンプトにツールの説明は含めなくてOK.)
Diff Generation
コードの差分 (Unified Diff など?) の生成も強化されてる.

Long context のベストプラクティス
- コンテキストサイズは数十万トークンが最適
- 区切り文字は XML 形式とref 形式が良い
- 重要は指示は,入力プロンプトの上部と下部の両方に配置することが最適らしい.

CoT のベストプラクティス
- プロンプトの最後にstep by stepで考えて〜のCoTの基本的な指示を入れるだけでも,効果的らしい.(以下例)
First, think carefully step by step about what documents are needed to answer the query. Then, print out the TITLE and ID of each document. Then, format the IDs into a list.

Instruction following のベストプラクティス
何をすべきか・何をすべきでないかを明確に指定する必要がある.
- 概要と箇条書きを含む「対応ルール」または「指示」セクションから始める
- 具体的な動作を指示したい場合は,「 ## Sample Phrases」のようなセクションを追加
- 一方,サンプルフレーズなどを提供すると,それをそのまま引用しがちなので,必要に応じて変更するように指示することも必要.
- 矛盾する指示が無いように注意.矛盾する指示がある場合,GPT-4.1はプロンプトの終わりに近い方に従う傾向があるらしい.
- わからない場合は「わからない」と回答するようにモデルに指示することも重要.

プロンプトの例は以下.