<p>膨大なパラメータを持つ言語モデルであるGPT-3は、学習後にパラメータを更新することなくタスクの情報と少量のデモンストレーションを入力することで、様々なNLPタスクをこなすことができます。論文のタイトルに含まれる「Few-Shot Learners」というフレーズもこれを意図したものだと言えます。</p>
<p>論文ではZero/One/Few-Shotという概念に触れられていますが、これらの説明が自分の理解していた内容と違っていました。結論から言えば、GPT-3におけるZero/One/Few-Shotと、一般に紹介されている（と思う）Zero/One/Few-Shot learningは大きく異なります。本稿ではGPT-3におけるこれらの説明と、他の資料での説明を比較し内容を整理します。</p>
<p><span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__03b58ec7492f6" src="https://embed.zenn.studio/card#zenn-embedded__03b58ec7492f6" data-content="https%3A%2F%2Farxiv.org%2Fabs%2F2005.14165" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://arxiv.org/abs/2005.14165" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://arxiv.org/abs/2005.14165</a></p>
<span class="embed-block embed-youtube"><iframe src="https://www.youtube-nocookie.com/embed/SY5PvZrJhLE" allow="accelerometer; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen loading="lazy"></iframe></span>
<h1 id="gpt-3%E3%81%AB%E3%82%88%E3%82%8B%E3%83%9E%E3%83%AB%E3%83%81%E3%82%BF%E3%82%B9%E3%82%AF%E5%87%A6%E7%90%86%E3%81%AE%E4%BB%95%E7%B5%84%E3%81%BF">
<a class="header-anchor-link" href="#gpt-3%E3%81%AB%E3%82%88%E3%82%8B%E3%83%9E%E3%83%AB%E3%83%81%E3%82%BF%E3%82%B9%E3%82%AF%E5%87%A6%E7%90%86%E3%81%AE%E4%BB%95%E7%B5%84%E3%81%BF" aria-hidden="true"></a> GPT-3によるマルチタスク処理の仕組み</h1>
<p>GPT-3がパラメータの更新なしに様々なタスクを処理する仕組み自体は、基本的に前身となったGPT-2と同じ自己回帰です。つまり与えられたトークンの系列から、次のトークンを予測するという方法です。</p>
<p>マルチタスクの予測は<embed-katex><eq class="zenn-katex">p(output|input, task)</eq></embed-katex>としてモデル化できますが、GPT-2（およびGPT-3）ではこのタスクの部分も文章として入力することで、単一のモデルで様々なタスクを処理することができます。逆に言えば、自己回帰による学習が潜在的にマルチタスク学習になっているとも言えます。</p>
<p><span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__f5143b1ccf71c" src="https://embed.zenn.studio/card#zenn-embedded__f5143b1ccf71c" data-content="https%3A%2F%2Fgithub.com%2Fopenai%2Fgpt-2" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://github.com/openai/gpt-2" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://github.com/openai/gpt-2</a></p>
<h1 id="gpt-3%E3%81%AE%E6%8E%A8%E8%AB%96%E5%BD%A2%E6%85%8B">
<a class="header-anchor-link" href="#gpt-3%E3%81%AE%E6%8E%A8%E8%AB%96%E5%BD%A2%E6%85%8B" aria-hidden="true"></a> GPT-3の推論形態</h1>
<p>GPT-3の論文では、事前学習モデルを利用するアプローチとしてFine-Tuning, Few-Shot, One-Shot, Zero-Shotの4つに触れています。これらの4つは目標タスクのデータをどれくらい必要とするかによる分類と言えます。</p>
<p><img src="https://storage.googleapis.com/zenn-user-upload/9rm1ubr9mgrrbe1hautvgxq70ils" alt loading="lazy" class="md-img"></p>
<h2 id="fine-tuning">
<a class="header-anchor-link" href="#fine-tuning" aria-hidden="true"></a> Fine-Tuning</h2>
<p>事前学習済みモデルをもとにして、目標タスクのデータセットで教師あり学習を行う方法です。多くのベンチマークで優れた性能を発揮しており、広く利用されています。一方で論文では以下のようなデメリットを挙げています。</p>
<ol>
<li>目標タスクが増えるとその分だけ個別にモデルを学習する必要がある</li>
<li>FineTune時の狭い領域の学習データに特化してしまい、汎化性能が悪くなる（可能性がある）</li>
<li>学習データの見せかけ（spurious）の特徴を利用する（可能性がある）</li>
</ol>
<p>③の見せかけの特徴とは、例えば画像分類において背景のみに注目して物体を分類できてしまうようなケースを指していると思われます。GPT-3はタスクに関知しない性能にフォーカスしているため、fine-tuneは行いません。</p>
<h2 id="few-shot">
<a class="header-anchor-link" href="#few-shot" aria-hidden="true"></a> Few-Shot</h2>
<p>GPT-3の論文内では、few-shotは推論時にタスクに関する説明と少量のデモンストレーションを与える方式（※ただしモデルのパラメータは更新しない）として紹介しています。これはもともとGPT-2の時点で採用されていた方法です。パラメータを更新しないため、fine-tuningのようにタスクごとに新しくデータセットを作成しなくて良いというメリットがあります。同じ理由で、対象タスクのデータに過学習しないというメリットもあります。</p>
<p>一方で注意するべき点として、fine-tuning程の性能は発揮できない、また少量とはいえデモンストレーションとしてのデータが必要ということが記載されています。</p>
<h2 id="one-shot">
<a class="header-anchor-link" href="#one-shot" aria-hidden="true"></a> One-Shot</h2>
<p>One-Shotはfew-shotにおいてデモンストレーションの数が1つであるケースです。One-shotのシチュエーションは、人が例示を見てタスクに取り組むという状況に近いとして個別に取り上げられています。</p>
<h2 id="zero-shot">
<a class="header-anchor-link" href="#zero-shot" aria-hidden="true"></a> Zero-Shot</h2>
<p>GPT-3におけるzero-shotとは、推論時にはタスクに関する説明のみが与えられ、デモンストレーションは全く与えられないケースです。最も汎用ですが、最も難しい設定になっています。一方で翻訳など一部のタスクでは、zero-shotの設定でも人間に近い性能を発揮したと報告しています。</p>
<p>以下は英語→フランス語の翻訳タスクにおけるzero-shot, one-shot, few-shotの推論例です。自己回帰（与えられた単語系列から次の単語を予測する）によって予測を行うという点は共通していますが、与えられるデモンストレーション（図中example）の数が異なっていることがわかります。</p>
<p><img src="https://storage.googleapis.com/zenn-user-upload/vxbwvghlg8k309tw8ia9dxnzxg83" alt loading="lazy" class="md-img"></p>
<p>このように、GPT-3においてZero/One/Few-Shotはタスク説明＋デモンストレーションが与えられるという統一的な設定において、デモンストレーションの多寡に応じて分類されていることがわかります。</p>
<h1 id="%E4%B8%80%E8%88%AC%E7%9A%84%E3%81%AAfew%2Fone%2Fzero-shot-learning%E3%81%AE%E8%AA%AC%E6%98%8E">
<a class="header-anchor-link" href="#%E4%B8%80%E8%88%AC%E7%9A%84%E3%81%AAfew%2Fone%2Fzero-shot-learning%E3%81%AE%E8%AA%AC%E6%98%8E" aria-hidden="true"></a> 一般的なFew/One/Zero-Shot learningの説明</h1>
<p>一般的なFew/One/Zero-Shot learningの紹介として、まずGoodfellowらのDeep Learning<sup class="footnote-ref"><a href="#fn-ffb8-1" id="fnref-ffb8-1">[1]</a></sup>をあたりました。15章「表現学習」の「15.2 転移学習とドメイン適応」の節に、one-shot learningとzero-shot learningに関する記載があり、どちらも転移学習の極端なケースとして触れられています。</p>
<h2 id="one-shot-learning">
<a class="header-anchor-link" href="#one-shot-learning" aria-hidden="true"></a> One-Shot Learning</h2>
<blockquote>
<p>ワンショット学習（Fei-Fei et al., 2006<sup class="footnote-ref"><a href="#fn-ffb8-2" id="fnref-ffb8-2">[2]</a></sup>）は、潜在的なクラスをきれいに分けるような表現を1段階目で学習することで可能となる。知識を転移する際には、1つのラベル付き事例があれば、特徴空間上でその点の周りにあるいくつものテスト事例のラベルを推論するのに十分である。学習された表現空間でこのような普遍性に対応する変化の要因がその他の要因からきれいに区別でき、特定のカテゴリの物体を識別するのにどの要因が重要なのかを何らかの形で学習する限りにおいて、これはうまくいく。</p>
</blockquote>
<p>Few-Shot learningは少量のラベル付きデータが与えられる設定であり、one-shotの一般的なケースとして扱えます。</p>
<p>VinyalsらのMatching Networks<sup class="footnote-ref"><a href="#fn-ffb8-3" id="fnref-ffb8-3">[3]</a></sup>では、学習データを記憶するメモリーモジュールと近傍法を組み合わせることで、少数サンプルに基づいた分類を提案しています。SnellらによるPrototypical Networks<sup class="footnote-ref"><a href="#fn-ffb8-4" id="fnref-ffb8-4">[4]</a></sup>では、学習によって各クラスの代表点（prototype）を獲得します。予測時は代表点との距離に応じて分類確率を計算します。これらの手法は以下のGitHubリポジトリにおいても紹介されています。</p>
<p><span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__73fd4b0ab90b7" src="https://embed.zenn.studio/card#zenn-embedded__73fd4b0ab90b7" data-content="https%3A%2F%2Fgithub.com%2Foscarknagg%2Ffew-shot" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://github.com/oscarknagg/few-shot" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://github.com/oscarknagg/few-shot</a></p>
<h2 id="zero-shot-learning">
<a class="header-anchor-link" href="#zero-shot-learning" aria-hidden="true"></a> Zero-Shot Learning</h2>
<blockquote>
<p>ゼロショット学習の例として、学習器が大量のテキストを読んだ後に物体認識を行うような問題設定を考えよう。もしそのテキストが物体を十分にうまく説明できているとすれば、ある特定の物体のタスクを、その物体の画像を1枚も見ずに認識しうる。例えば猫は4本の足と尖った耳を持つというテキストを読んでいた場合、学習器は猫の画像を前もってみていなくても、ある画像が猫であると推測することができうるだろう。</p>
</blockquote>
<p>ここで挙げられているのは、学習時に入力データが存在しないクラス（ここでは猫）でも、それを補うような追加情報（猫は尖った耳と4本の足を持つ、など）が利用できれば予測が期待できるということです。追加情報を用いるという点で、通常の画像分類やテキスト分類などよりも特殊な設定と言えます。</p>
<p>Palatucciらはsemantic encodingという方式によって、学習データに存在しないクラスを扱うことを提案しています<sup class="footnote-ref"><a href="#fn-ffb8-5" id="fnref-ffb8-5">[5]</a></sup>。彼らのアプローチでは入力データから直接クラスを予測するのではなく、semantic featureという特徴ベクトルを計算します。特徴ベクトルはknowledge baseと呼ばれる補助情報によってクラスと結びつけられ、最終的な予測クラスに変換されます。学習時に存在しないクラスのデータが与えられても、knowledge baseにおいて適切に特徴ベクトルと新規クラスが結びつけられていれば、正しい分類が期待できます。</p>
<p>Socherらの取り組みでは、画像とテキストを結びつけることでzero-shot learningを行っています<sup class="footnote-ref"><a href="#fn-ffb8-6" id="fnref-ffb8-6">[6]</a></sup>。ここでのテキストとはクラスラベルのことであり、dogやcatなどといったクラスラベルの分散表現を先に学習しておきます。さらに画像から該当するラベルの分散表現への写像を学習し、得られた特徴ベクトルに基づいて分類を行います。これによって、学習時に画像が与えられなかったクラスでも、テキストの表現に基づいた分類が期待できます。同時に、与えられた画像のクラスが学習時に存在したかどうかも計算できる構造になっています。</p>
<p>以上より、一般的な意味合いではfew/one-shot learningとzero-shot learningは全く異なる枠組みであると言えます。</p>
<h1 id="%E3%81%BE%E3%81%A8%E3%82%81">
<a class="header-anchor-link" href="#%E3%81%BE%E3%81%A8%E3%82%81" aria-hidden="true"></a> まとめ</h1>
<table>
<thead>
<tr>
<th></th>
<th>一般的な扱い</th>
<th>GPT-3での扱い</th>
</tr>
</thead>
<tbody>
<tr>
<td>Few/One-Shot</td>
<td>少量の教師ありデータに基づく学習方法</td>
<td>タスク説明と少量のデモンストレーションを入力とした予測</td>
</tr>
<tr>
<td>Zero-Shot</td>
<td>学習時に存在しないクラスのデータを扱う枠組み</td>
<td>タスク説明のみを入力とした予測</td>
</tr>
</tbody>
</table>
<p>同じフレーズがいろいろな意味で使われるのはつらい😭</p>
<section class="footnotes">
<span class="footnotes-title">脚注</span>
<ol class="footnotes-list">
<li id="fn-ffb8-1" class="footnote-item">
<p><a href="https://www.deeplearningbook.org/" target="_blank" rel="nofollow noopener noreferrer">https://www.deeplearningbook.org/</a> <a href="#fnref-ffb8-1" class="footnote-backref">↩︎</a></p>
</li>
<li id="fn-ffb8-2" class="footnote-item">
<p><a href="https://ieeexplore.ieee.org/abstract/document/1597116" target="_blank" rel="nofollow noopener noreferrer">https://ieeexplore.ieee.org/abstract/document/1597116</a> <a href="#fnref-ffb8-2" class="footnote-backref">↩︎</a></p>
</li>
<li id="fn-ffb8-3" class="footnote-item">
<p><a href="https://arxiv.org/abs/1606.04080" target="_blank" rel="nofollow noopener noreferrer">https://arxiv.org/abs/1606.04080</a> <a href="#fnref-ffb8-3" class="footnote-backref">↩︎</a></p>
</li>
<li id="fn-ffb8-4" class="footnote-item">
<p><a href="https://arxiv.org/abs/1703.05175" target="_blank" rel="nofollow noopener noreferrer">https://arxiv.org/abs/1703.05175</a> <a href="#fnref-ffb8-4" class="footnote-backref">↩︎</a></p>
</li>
<li id="fn-ffb8-5" class="footnote-item">
<p><a href="https://papers.nips.cc/paper/2009/file/1543843a4723ed2ab08e18053ae6dc5b-Paper.pdf" target="_blank" rel="nofollow noopener noreferrer">https://papers.nips.cc/paper/2009/file/1543843a4723ed2ab08e18053ae6dc5b-Paper.pdf</a> <a href="#fnref-ffb8-5" class="footnote-backref">↩︎</a></p>
</li>
<li id="fn-ffb8-6" class="footnote-item">
<p><a href="https://papers.nips.cc/paper/2013/file/2d6cc4b2d139a53512fb8cbb3086ae2e-Paper.pdf" target="_blank" rel="nofollow noopener noreferrer">https://papers.nips.cc/paper/2013/file/2d6cc4b2d139a53512fb8cbb3086ae2e-Paper.pdf</a> <a href="#fnref-ffb8-6" class="footnote-backref">↩︎</a></p>
</li>
</ol>
</section>


GPT-3におけるFew-Shot・Zero-Shot

GPT-3によるマルチタスク処理の仕組み

一般的なFew/One/Zero-Shot learningの説明

Discussion