Flan-T5, Flan-PaLMとは何か
Flan-T5とは
Scaling Instruction-Finetuned Language ModelsでGoogleが発表したモデルであり、それまでのモデルパフォーマンスを大きく向上させたことで知られています。
Flan-T5とFlan-PaLMはそれぞれ既存のモデルをFineTuningしたモデルになっていますが、それぞれのモデルが大きな精度改善を達成した理由はその学習方法にあります。
簡単にいうと、FlAN系のモデルは学習するタスク数を大きく増やすことを行いました。
ここでいうタスクというのはインストラクションプロンプト(命令文)のテンプレートという意味です。
生成AIモデルが発達した今では、「プロンプト」という言葉の意味を全人類が理解している奇妙な世界になりましたが、ものもとはここでいう命令文のことを指す言葉です。
FLANでは以下のようなプロンプトが学習されました。それまでの研究で開発されていた学習タスクを集めて学習させています。
タスクはデータセットとタスクカテゴリーから作られます。データセットは文字通りタスクの生成に使うデータセットの種類を示しており、タスクカテゴリーはそのデータセットをもとに作られるタスクのセットアップを指します。
それまでの論文でもタスク数を増やすことでゼロショットの性能向上が見られることは確認済みでしたが、FLANではそのタスク数をさらに向上させて性能向上があることを確認しました。
またこの性能向上はパラメーター数の大きなモデルでも小さなモデルでも見られたため、性能向上のための学習方法として非常に汎用的であると言えます。
またこの手法の重要な点は、このようなとてつもない性能向上がFineTuningで得られるている点です。
FineTuningは事前学習と比べて、学習にかかるコスト(時間・お金)が非常に小さいので、幅広い利用を考えることができます。
Discussion