Open2
Sheared LLama のメモ

Sheared(せん断, 刈り込み)して LLM の効率をよくする

- LLaMa 7B を punning して軽量化
- continually pre-trainingする
- 50B tokens だけの利用でよい
- Chinese LLaMa の追加事前学習みたいな感じかな? トークン数は少なくできるので, 学習のコストが下がる
code のリリースはまだない(2023/10/16 時点)
3 B 規模を一から学習(1~3 T tokens で)するよりは, より規模の大きいすでにあるモデル(llama-7B など)を reduction して 3B を作り, より少ない token 量で continually pretrain 学習することで, コストを抑えてモデルを作ることができるというのが利点か.