💭

LLMをざっとまとめ ver.3

に公開1

前回前々回の記事に続き、自分の理解と整理のためにLLMをまとめてます
https://zenn.dev/tk1/articles/1c57c8adc68869
https://zenn.dev/tk1/articles/da19de468c36dd

目次

  1. PaLM
  2. LLaMA
  3. LLAMA2

PaLM

まずはPaLMから

論文(2022年4月)
https://arxiv.org/abs/2204.02311

概要

  • Pathwaysを使い7800億トークンのデータで学習して最大5400億パラメータのモデルを作った

Pathwaysについてはこちら
https://arxiv.org/abs/2203.12533
理解が追いついていないので、別途見てみます

モデル

  • TransformerのDecoder部分
    • SwiGLUを使用、MLP層とAttention層を並列実行させる…等の細かい改善あり
  • サイズ(パラメータ数)は以下のバリエーション
    • 80億
    • 620億
    • 5400億
  • 7800億トークンのデータで学習
    • 会話、webページ、本、コードなどをフィルタしたもの

結果

以下の多くのタスクでSoTAを達成

  1. 英語自然言語タスク
  2. Big Bench
  3. 推論
  4. コード
  5. 翻訳
  6. テキスト生成
  7. QA

LLaMA

次はLLaMA

論文(2023年2月)
https://arxiv.org/abs/2302.13971

概要

  • 1.4兆トークンのオープンなデータで学習して最大650億パラメータのモデルを作った

モデル

  • Transformerがベース
  • サイズ(パラメータ数)は以下のバリエーション
    • 67億
    • 130億
    • 325億
    • 652億
  • 652億のモデルでは、1.4兆トークンのオープンなデータで学習
    • CommonCrawl、C4、Github、Wikipedia…等のデータをフィルタしたもの
    • バッチサイズは400万
    • 1〜2エポック分まわした

結果

推論、QA、文章理解、数学的推論、コード生成…等のタスクで、小さいモデルにも関わらずGPT-3やPaLMと比較して好成績

LLAMA2

最後はLLAMA2

論文(2023年7月)
https://arxiv.org/abs/2307.09288v2

概要

  • 2兆トークンのオープンなデータで学習して最大700億パラメータのモデルを作った
  • 対話形式に最適化されたLLAMA2-Chatを作った

モデル

  • LLaMA1と基本は同じ
  • LLAMA2のサイズ(パラメータ数)は以下のバリエーション
    • 70億
    • 130億
    • 340億
    • 700億
  • LLAMA2-Chatのサイズは以下のバリエーション
    • 70億
    • 130億
    • 700億
  • 全モデルで2兆トークンのオープンなデータで学習
  • 事前学習後に各種ファインチューニングをしてLLAMA2-Chatを作成
    • ※ここは深く見れていないので別途ちゃんと見て理解する

結果

  • 推論や文章理解などのベンチマークについて、LLaMA1やFalconなどのオープンソースモデルよりは好成績だったが、GPT-4やPaLM-2-Lなどのクローズドモデルには敵わなかった
  • LLAMA2-Chatは「有用性」と「安全性」という軸にて好結果

まとめ

  • 今回はここ1〜2年に発表された論文を見てみた
  • PaLMで使われていたPathwaysやLLAMA2-Chatのファインチューニング手法はもっとちゃんと見て100%理解したい
  • スケーリング則ではデータサイズよりもパラメータ数の方がより性能に直結するとのことだったが、LLaMA/LLAMA2では巨大なデータで良い結果を出していた不思議

Discussion