2025-11-17 AIソムリエ: プロンプト最適化の最前線
こんにちは。FLINTERSの河内です。
AIソムリエ会では新しいAIサービスなどを味見して定期的に感想を交換しています。
今日は私の担当だったので、個人的な興味でもあるプロンプト最適化について調べました。
どこでも最初は手動でのプロンプト調整から始まると思うのですが、最善を見つけるのが難しく、また、古い LLM にとっては有効なプロンプトも新しく出た LLM にとっては邪魔になったりということもあるので、どうするかは悩みの種です。
少し調べてみたところ、評価器を元にした自動最適化手法が色々あったので紹介しました。
実際に自分でも試してみたところ、評価器の作り次第で最適化の質も全然変わってしまうなというのを感じました。正解を定義しづらい領域では LLM-as-a-Judge を評価器として使うことが多いと思いますが、タスクを評価できる十分に高性能な LLM を使う必要がある、というのが今回感じたことでした。
(今回は謎掛けを Haiku 4.5 でやってみたのですが、笑いを取れるレベルの作品は生成できませんでした。)
以下は会での発表議論の書き起こしから自動でまとめたものです。
LLM(大規模言語モデル)を活用したアプリケーション開発において、性能向上のカギとなる「最適化」の手法が進化しています。特に、高コストなファインチューニングに代わり、GPU不要で手軽に試せるプロンプト最適化の領域で、注目すべき研究が次々と生まれています。
この分野の進化は、手動での試行錯誤から、スカラー報酬(数値評価)による体系化、そして自然言語によるフィードバックを活用する方向へと、時系列的に進んでいます。
進化するプロンプト最適化の主要手法
現在、研究が進むプロンプト最適化に用いることができる手法には以下のものがあります。
-
MIPRO (Optimizing Instructions and Demonstrations for Multi-Stage Language Model Programs)
- https://arxiv.org/abs/2406.11695
- 概要: Chain-of-ThoughtやReActのようなマルチステージLLMプログラム向けに、命令文(システムプロンプト)やFew-Shotのデモ例を自動で最適化し、高い評価スコアを持つプロンプトを効率的に発見します。
- 特徴: DSPy 上で実装され、スカラー報酬(数値)に基づいて効率的な探索が可能です。ただし、なぜそのプロンプトが良いのかという理由が不明瞭になりがちな点が課題とされています。
-
TextGrad:自然言語による勾配
- https://arxiv.org/abs/2406.07496
- 概要: スカラー報酬(80点など)ではなく、自然言語のフィードバック(「〇〇という理由で80点」)を報酬として用いる手法です。
- 特徴: フィードバックの理由も含めて最適化のヒントとして活用するため、次にどう改善すべきかという情報が得られやすくなります。組み合わせの爆発がなく収束する性質を持つとされ、自然言語によるフィードバックの先駆けとなる研究です。計算量の高いプログラムの改善などで性能向上が見られています。
-
Feedback Descent:長期最適化への挑戦
- https://arxiv.org/abs/2511.07919
- 概要: TextGradで見られた「改善の飽和が早い(10回程度のイテレーションで性能向上が止まる)」という課題を解決するために提案された手法です。
- 特徴: ペアワイズ比較と理由の説明の蓄積というオープンエンド最適化の考え方を取り入れています。過去の比較履歴とフィードバックをデータベースに蓄積し、次の改善候補の生成に利用することで、数百から数千といった長期的なイテレーションでの改善を可能にします。絶対的な正解がない分子構造生成や画像生成といった分野への応用も期待されています。
業務への適用と評価器の重要性
これらの自動最適化手法を実務へ応用する際の最大の課題は、「評価器」の設計です。
- マーケティング戦略の策定など、業務の中にはスコアリングが難しいタスクが多く存在します。正解が定義しづらい問題に対しては、複数のLLMに結果をディベートさせ、Eloレーティングを付与する DEEVO のような手法も研究されています。
- プロンプト最適化の成功には、GPT-4レベルの判断能力や、ドメイン固有の評価関数を持つ強力な評価器が不可欠と強調されています。生成が難しいが、評価は客観的にできるタスクが最適化の好例です。
- さらに、最適化のスコープはプロンプト単体だけでなく、ツール呼び出し、インプット内容、業務プロセス全体を含むPDCAサイクルとして捉えるべきという議論もされています。エージェント開発においては、実行・最適化アルゴリズム・ストレージを分離し、エージェント自体を変更せずに最適化を進められる Agent Lightning のようなフレームワークも注目されています。
謎かけ生成実験で明らかになったLLMの限界
実際に、DSPyとGEPAを用いて「謎かけ生成」というタスクでプロンプト最適化が試みられました。
- 評価軸: 無関係性、整合性、言葉遊び、切れ味といった複数の評価メトリックが設定されました。
- 結果: 最適化によってプロンプトには品質要件が追加され、一見論理的な謎かけが生成されるようになりましたが、最終的な出力は、人間の出すようなユーモアや「笑い」を誘うレベルには達しませんでした。
- 考察: 評価軸が複雑であること、LLM(Claude Haiku 4.5)の限界、そしてそもそも「お笑い」という分野がLLMにとって苦手な領域である可能性が高いという結論に至りました。人間によるフィードバック(Human-in-the-Loop)を試す実験も行われましたが、フィードバックがLLMの改善に効果的に活用されたかは疑問であり、高い評価の謎掛けを生成することはできませんでした。
結論として、プロンプト最適化技術は目覚ましい進歩を遂げていますが、その力を最大限に引き出すためには、タスクの特性に応じた精度の高い評価基準の設計が極めて重要となります。
Discussion