【GPT徹底解説】#2 教師ありデータはもう必要ない!GPT-2登場 ~ChatGPT凄さの根源~
教師ありデータをもっと減らしたい!!
GPTの登場により、それまで何万、何十万も必要だった教師ありデータが、たったの数千個で足りるようになりました.
これはとてつもない進歩です!
しかし、、皆さんもこう思ったかもしれません、、
「数千個て多くない??」
そうです!全くその通りです!
何十万もの教師ありデータセットと比べるとそれは少ないですが、普通に数千個て多いですよね?笑
僕だったらそんなデータ作りたいと思いません😅
皆さんと僕がそう思ったように、OpenAIさんも同じことを思っていました.
そこでOpenAIのエンジニアはまたもやすごいものを作り出したのです!
なんとGPTの進化系である「GPT-2」を作り出し、必要な教師ありデータを数個まで減らすことに成功したのです!
さすがは自然言語AIのパイオニアOpenAI様ですね、すごすぎます、、
この記事では「GPT-2」とは何なのか、どうして教師ありデータをこんなにも削減できたのかを徹底解説していきたいと思います!
GPT-2概要
GPT-2は「Language Models are Unsupervised Multitask Learners」という論文で提案されたモデルで特徴は以下になります.
GPT-2はこの特徴のおかげで、特定のタスクに特化しない汎用的なモデルを実現させました.驚くことに、特定のタスクに特化したモデルを抑えて、いくつものSoTA(State of The Art)を達成したのです.
GPTは事前学習をした後に、Fine-tuningによって特定のタスクに特化したモデルにし、精度を高めるというものでした.
しかしGPT-2はFine-tuningを行わなくても事前学習だけで、精度を向上させています.
つまり学習させたことのないデータセットに対しても(zero-shot setting)良い結果が得られているのです!
ここまで来ると本当に半端ないですね笑
まさに"Language Models are Unsupervised Multitask Learners", 「言語モデルは教師なし汎用モデル」であることを証明していますね.
僕もこんなかっこいいタイトルの論文を出してみたいものです笑
実験
それではGPT-2による実験結果を見ていきましょう.
論文内では12レイヤー(GPTと同じ)、24レイヤー、36レイヤー、48レイヤーの4つのサイズのモデルで実験が行われました.
それぞれのモデルに次単語予測を行わせて、何単語の間で迷っていたのかを表したのが以下の図になります.
次単語予測は、人間がやらせても結構難しいタスクだと思うのですが、一番大きなモデルでは選択肢を10くらいまで絞れているのは本当に凄いの一言ですね.
ただ大きなデータセットなので、一番大きなモデルでもアンダーフィットしているようですね.
まだまだ精度が上がっていくという可能性も示唆しています.そして次のGPT-3に繋がるわけですね.
また以下の図に示すように、さまざまなタスクにおいて教師ありデータで学習せずに(zero-shot setting)、精度とperplexityを測っています.
なんと、一番小さい12レイヤーのモデルでもいくつかのSoTAを達成し、1BW以外の全てのタスクにおいてSoTAを達成できていることがわかります.
教師ありデータで学習をしてそのタスクに特化させたモデルに、一切教師ありデータを使っていないモデルが勝っている.とんでもないことが起こっていると言えるでしょう.
まとめ
今回はGPT-2について紹介しました.
Pre-trainingとFine-tuningによって、特定のタスクに特化したモデルを作っていたGPTと違って、GPT-2はPre-trainingだけで、汎用的なタスクに対応できるモデルを実現させました.
「自然言語モデルに教師ありデータは必要ない」ということを示唆し、自然言語モデルの可能性を一気に押し上げてくれました.
いよいよ次はChatGPTにも利用されているGPT-3について触れていきます.
そちらも合わせて読んでいただけると嬉しいです!
Discussion