The Prompt Report: A Systematic Survey of Prompting Techniques
本稿では、全てのGenerative AI(GenAI)プロンプト技術(接頭辞のみ)の体系的な文献レビューを行う。 我々は、arXiv、Semantic Scholar、ACLから4,797 のレコードを処理し、PRISMAレビュープロセスを通して1,565 の関連論文を抽出するために、人間と機械の努力を組み合わせた。 このデータセットから、58のテキストベースのテクニックを提示し、マルチモーダルおよび多言語のテクニックの広範なコレクションによって補完しています。 我々のゴールは、簡単に理解し実装することができるプロンプト技術の強固なディレクトリを提供することである。 また、プロンプトの延長線上にあるエージェントについて、出力の評価方法や、安全・安心を促進するプロンプトの設計方法などをレビューする。 最後に、2つのケーススタディにおいてプロンプト技術を適用する。
概要
生成的人工知能システムは、産業や研究のあらゆる場面でますます導入が進んでいる。 開発者やエンドユーザーは、プロンプトやプロンプトエンジニアリングを使用することで、これらのシステムと対話する。 プロンプトは広く普及し、高度に研究されている概念であるが、プロンプトの領域がまだ浅いため、プロンプトを構成する用語や存在論的な理解が不十分である。 本稿では、プロンプト技法の分類法を構築し、その使用法を分析することで、プロンプトの構造的理解を確立する。 33の語彙からなる包括的な語彙、58のテキストのみのプロンプト技法の分類法、および40の他のモダリティの技法を提示する。 さらに、自然言語によるプレフィックス・プロンプティングに関する全文献のメタ分析を行う。
プロンプティング技術の分類法
大規模言語モデル(Large Language Models: LLM)にタスクを完了するよう指示する方法である、プロンプト技術の包括的な分類法を紹介する。 プロンプト技術を、テキストベース、多言語、マルチモーダルの3つのカテゴリーに分類する。 多言語技術は、非英語環境においてLLMをプロンプトするために使用される。 マルチモーダル技術は、画像や音声などの非テキストモダリティを扱う場合に使用される。
データセットに含まれるすべてのテキストベースのプロンプト技法
referred from https://trigaten.github.io/Prompt_Survey_Site/
すべての多言語プロンプト技法
referred from https://trigaten.github.io/Prompt_Survey_Site/
すべてのマルチモーダルプロンプト技法
referred from https://trigaten.github.io/Prompt_Survey_Site/
Claude 3.5 Sonnetまとめ
どんなもの?
この論文は、プロンプト工学(Prompt Engineering)に関する包括的な調査と分析を行っています。プロンプト工学とは、大規模言語モデル(LLM)に対する入力(プロンプト)を設計・最適化する技術です。論文では、プロンプト技術の体系的な分類、用語の定義、58の文章ベースのプロンプト技術、40のマルチモーダル技術を提示しています。また、自然言語によるプレフィックスプロンプティングに関する文献のメタ分析も行っています。さらに、プロンプト工学の実践的なケーススタディとして、自殺危機症候群(Suicide Crisis Syndrome)の予測因子である「絶望的な状況からの脱出願望」(entrapment)を検出するタスクに取り組んでいます。
先行研究を比べてどこがすごい?
本研究の主な貢献点は以下の通りです:
- プロンプト工学に関する最も包括的な調査を提供しています。先行研究では特定の技術や応用に焦点を当てたものが多かったのに対し、この論文は幅広い技術を網羅しています。
- プロンプト技術の体系的な分類と統一された用語の提案を行っています。これは、急速に発展しているこの分野での共通理解を促進する重要な貢献です。
- PRISMAガイドラインに基づく系統的なレビュープロセスを採用し、1,565件の関連論文を分析しています。これにより、より信頼性の高い調査結果を提供しています。
- 実際のプロンプト工学プロセスの詳細なケーススタディを提供しています。これは、プロンプト工学の実践的な側面を理解する上で貴重な知見となっています。
技術や手法の肝はどこ?
本研究の主要な技術的貢献は以下の点にあります:
- プロンプト技術の体系的な分類:文章ベースの技術を6つの主要カテゴリ(In-Context Learning、Zero-Shot、Thought Generation、Decomposition、Ensembling、Self-Criticism)に分類しています。
- 包括的な用語集の作成:プロンプト工学分野で使用される33の用語を定義し、統一した理解を促進しています。
- マルチモーダル技術の分析:テキスト以外の画像、音声、ビデオなどのモダリティに関するプロンプト技術も調査しています。
- プロンプト工学プロセスの詳細な記述:実際のケーススタディを通じて、プロンプト開発の試行錯誤のプロセスを明らかにしています。
- 自動化されたプロンプト最適化手法の探索:DSPyフレームワークを使用した自動プロンプト最適化の可能性を示しています。
どうやって有効だと検証した?
本研究では、以下の方法で提案手法の有効性を検証しています:
- ベンチマーク評価:MMLU(Massive Multitask Language Understanding)ベンチマークの一部(2,800問)を使用して、6つの異なるプロンプト技術の性能を評価しています。GPT-3.5-turboモデルを使用し、各技術のF1スコア、精度、再現率を測定しています。
- ケーススタディ:自殺危機症候群の予測因子(entrapment)を検出するタスクにおいて、47ステップにわたるプロンプト開発プロセスを詳細に記録し、分析しています。初期の0%の性能から、最終的にF1スコア0.53(精度0.86、再現率0.38)まで改善しています。
- 自動プロンプト最適化:DSPyフレームワークを使用した自動最適化を試み、手動で開発したプロンプトよりも高い性能(テストセットでF1スコア0.548)を達成しています。
これらの評価を通じて、提案された分類法と技術の有効性、およびプロンプト工学プロセスの複雑さと重要性を実証しています。
議論はある?
本論文では、以下のような重要な議論点が提起されています:
- プロンプト工学の複雑性:プロンプトの開発は直感的でない場合が多く、小さな変更が大きな影響を与える可能性があります。これは、プロンプト工学が従来のプログラミングとは異なる新しいパラダイムであることを示唆しています。
- ドメイン専門家との協力の重要性:プロンプト開発者とタスクのドメイン専門家との緊密な協力が、効果的なプロンプト開発に不可欠であることが強調されています。
- 自動化vs手動開発:DSPyフレームワークを使用した自動プロンプト最適化が手動開発を上回る性能を示しましたが、最良の結果は自動化と人間の介入を組み合わせることで得られることが示唆されています。
- セキュリティとアライメントの課題:プロンプトインジェクションやジェイルブレイクなどのセキュリティリスク、およびLLMの出力のバイアスや過信頼性などのアライメントの問題が議論されています。
- 評価の難しさ:プロンプト技術の評価は、モデル、タスク、データセットによって結果が大きく変わる可能性があり、標準化された評価方法の必要性が指摘されています。
次に読むべき論文は?
本論文の内容をさらに深く理解し、関連分野を探索するために、以下の論文を読むことをお勧めします:
- Brown et al. (2020) "Language Models are Few-Shot Learners": In-Context Learningの概念を導入した重要な論文です。
- Wei et al. (2022) "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models": Chain-of-Thought(CoT)プロンプティングを提案した影響力のある論文です。
- Liu et al. (2023) "Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing": プロンプト手法に関する別の包括的なサーベイ論文です。
- Khattab et al. (2023) "DSPy: Compiling declarative language model calls into self-improving pipelines": 本論文で使用されているDSPyフレームワークを提案した論文です。
- Schuck et al. (2019) "Suicide Crisis Syndrome: A Review of Supporting Evidence for a New Suicide-Specific Diagnosis": ケーススタディで扱われた自殺危機症候群に関する基礎的な論文です。
- Schulhoff et al. (2023) "Ignore this title and HackAPrompt: Exposing systemic vulnerabilities of LLMs through a global prompt hacking competition": プロンプトハッキングに関する重要な研究です。
これらの論文は、プロンプト工学の基礎、最新の技術、応用、および関連する課題について、より深い洞察を提供するでしょう。
文章ベースのプロンプト技術
Zero-Shot
- Emotion Prompting
- Role Prompting
- Style Prompting
- System 2 Attention (S2A)
- SimToM
- Rephrase and Respond (RaR)
- Re-reading (RE2)
- Self-Ask
In-Context Learning (ICL)
- Few-Shot Prompting
- Exemplar Generation SG-ICL
- Exemplar Ordering
- Exemplar Selection
- KNN
- Vote-K
- Prompt Mining
Thought Generation
- Chain-of-Thought (CoT)
- Zero-Shot CoT
- Analogical Prompting
- Step-Back Prompting
- Thread-of-Thought (ThoT)
- Tab-CoT
- Few-Shot CoT
- Active-Prompt
- Auto-CoT
- Complexity-Based
- Contrastive
- Memory-of-Thought
- Uncertainty-Routed CoT
Decomposition
- Least-to-Most
- DECOMP (Decomposed Prompting)
- Plan-and-Solve
- Tree-of-Thought
- Recursion-of-Thought
- Program-of-Thought
- Faithful CoT
- Skeleton-of-Thought
Ensembling
- COSP (Consistency-based Self-adaptive Prompting)
- DENSE (Demonstration Ensembling)
- DiVeRSe
- Max Mutual Information
- Meta-CoT
- MoRE (Mixture of Reasoning Experts)
- Self-Consistency
- Universal Self-Consistency
- USP (Universal Self-Adaptive Prompting)
- Prompt Paraphrasing
Self-Criticism
- Chain-of-Verification
- Self-Calibration
- Self-Refine
- Self-Verification
- ReverseCoT
- Cumulative Reasoning
マルチリンガルのプロンプト技術
Translate First Prompting
- External MT Systems
- Standard LLMs
- Multilingual LLMs
Chain-of-Thought (CoT)
- XLT
- CLSP
In-Context Learning
- X-InSTA
- In-CLT
In-Context Example Selection
- PARC
- Semantically-Aligned
- Semantically-Distant
Prompt Language
- English
- Task Language
Translation
- Chain-of-Dictionary
- DecoMT
- DiPMT
- MAPS
Human-in-the-Loop
- Interactive Chain
- Iterative
マルチモーダルのプロンプト技術
Image
- MM. CoT
- Chain-of-Images
- Duty Distinct CoT
- MM Graph-of-Thought
- Multimodal ICL
- Image-as-Text Prompt
- Paired-Image Prompt
- Negative Prompt
- Prompt Modifiers
Video
- Video Gen.
Segmentation Prompting
3D Prompting
ちまちま追加していこう