📑

大規模言語モデルはゼロショット推論器である (新しい研究論文の紹介)

2024/12/04に公開

LLM の成功は、多くの場合、「少数ショット学習」または「ゼロショット学習」によるものとされています。「少数ショット」またはタスクを説明する指示「ゼロショット」に基づいてモデルを条件付けるだけで、さまざまなタスクを解決できます。この論文では、タスクごとに少数の例を手作業で作成する必要がある以前の研究の「少数ショット」 アプローチとは対照的に、さまざまな推論タスクにわたって LLM から一連の思考を引き出す単一のゼロショット プロンプトである Zero-shot-CoT を提案しました。

提案された Zero-shot-CoT とは、思考連鎖推論のための「ゼロショット」テンプレートベースのプロンプトであり、ステップバイステップの「少数ショット」の例を必要としないため、元の思考連鎖プロンプトとは異なります。また、本質的にタスクに依存せず、単一のテンプレートで幅広いタスクにわたるマルチホップ推論を引き出すため、以前のテンプレートプロンプトのほとんどとは異なります。その方法の核となるアイデアはシンプルで、「ステップバイステップで考えてみましょう」または同様のテキストを追加するだけで、ステップバイステップの推論を抽出できます。

Few-shot-CoT と同様に、Zero-shot-CoT は複数ステップの推論(青いテキスト)を促進し、標準的なプロンプトでは解決できない正しい答えに到達します。タスクごとにステップごとの推論例を使用する Few-shot-CoT とは異なり、Zero-shot-CoT では例は必要なく、すべてのタスク (算術、記号、常識、その他の論理的推論タスク) で同じプロンプト「ステップごとに考えてみましょう」を使用するだけです。

Zero-shot-CoT は概念的にはシンプルですが、推論と回答の両方を抽出するためにプロンプ​​トを 2 回使用します。対照的に、「ゼロショット」 ベースラインでは、正しい形式で回答を抽出できるように、「答えは」という形式のプロンプトがすでに使用されています。

Zero-shot-CoT の完全なパイプライン:

  1. まず最初の「推論」プロンプトを使用して、言語モデルから完全な推論パスを抽出します。
  2. 次に、2 番目の「回答」プロンプトを使用して、推論テキストから正しい形式で回答を抽出します。

要約すると、Few-shot-CoT では、タスクごとに特定の回答形式を持ついくつかのプロンプト例を注意深く人間がエンジニアリングする必要がありますが、Zero-shot-CoT ではエンジニアリングは少なくて済みますが、LLM を 2 回プロンプトする必要があります。

詳しかは元の論文を参照してください: https://arxiv.org/pdf/2205.11916

Discussion