Open2

Sheared LLama のメモ

syoyosyoyo
  • LLaMa 7B を punning して軽量化
  • continually pre-trainingする
    • 50B tokens だけの利用でよい
    • Chinese LLaMa の追加事前学習みたいな感じかな? トークン数は少なくできるので, 学習のコストが下がる

code のリリースはまだない(2023/10/16 時点)

3 B 規模を一から学習(1~3 T tokens で)するよりは, より規模の大きいすでにあるモデル(llama-7B など)を reduction して 3B を作り, より少ない token 量で continually pretrain 学習することで, コストを抑えてモデルを作ることができるというのが利点か.