💭
LLMをざっとまとめ ver.3
前回前々回の記事に続き、自分の理解と整理のためにLLMをまとめてます
目次
- PaLM
- LLaMA
- LLAMA2
PaLM
まずはPaLMから
論文(2022年4月)
概要
- Pathwaysを使い7800億トークンのデータで学習して最大5400億パラメータのモデルを作った
Pathwaysについてはこちら
理解が追いついていないので、別途見てみますモデル
- TransformerのDecoder部分
- SwiGLUを使用、MLP層とAttention層を並列実行させる…等の細かい改善あり
- サイズ(パラメータ数)は以下のバリエーション
- 80億
- 620億
- 5400億
- 7800億トークンのデータで学習
- 会話、webページ、本、コードなどをフィルタしたもの
結果
以下の多くのタスクでSoTAを達成
- 英語自然言語タスク
- Big Bench
- 推論
- コード
- 翻訳
- テキスト生成
- QA
LLaMA
次はLLaMA
論文(2023年2月)
概要
- 1.4兆トークンのオープンなデータで学習して最大650億パラメータのモデルを作った
モデル
- Transformerがベース
- サイズ(パラメータ数)は以下のバリエーション
- 67億
- 130億
- 325億
- 652億
- 652億のモデルでは、1.4兆トークンのオープンなデータで学習
- CommonCrawl、C4、Github、Wikipedia…等のデータをフィルタしたもの
- バッチサイズは400万
- 1〜2エポック分まわした
結果
推論、QA、文章理解、数学的推論、コード生成…等のタスクで、小さいモデルにも関わらずGPT-3やPaLMと比較して好成績
LLAMA2
最後はLLAMA2
論文(2023年7月)
概要
- 2兆トークンのオープンなデータで学習して最大700億パラメータのモデルを作った
- 対話形式に最適化されたLLAMA2-Chatを作った
モデル
- LLaMA1と基本は同じ
- LLAMA2のサイズ(パラメータ数)は以下のバリエーション
- 70億
- 130億
- 340億
- 700億
- LLAMA2-Chatのサイズは以下のバリエーション
- 70億
- 130億
- 700億
- 全モデルで2兆トークンのオープンなデータで学習
- 事前学習後に各種ファインチューニングをしてLLAMA2-Chatを作成
- ※ここは深く見れていないので別途ちゃんと見て理解する
結果
- 推論や文章理解などのベンチマークについて、LLaMA1やFalconなどのオープンソースモデルよりは好成績だったが、GPT-4やPaLM-2-Lなどのクローズドモデルには敵わなかった
- LLAMA2-Chatは「有用性」と「安全性」という軸にて好結果
まとめ
- 今回はここ1〜2年に発表された論文を見てみた
- PaLMで使われていたPathwaysやLLAMA2-Chatのファインチューニング手法はもっとちゃんと見て100%理解したい
- スケーリング則ではデータサイズよりもパラメータ数の方がより性能に直結するとのことだったが、LLaMA/LLAMA2では巨大なデータで良い結果を出していた不思議
Discussion
興味深い記事をありがとうございます
個人的に大量のLLM系の論文を表形式にまとめています
もし興味があれば見てみてください