syoyo

<ul>
<li>LLaMa 7B を punning して軽量化</li>
<li>continually pre-trainingする
<ul>
<li>50B tokens だけの利用でよい</li>
<li>Chinese LLaMa の追加事前学習みたいな感じかな? トークン数は少なくできるので, 学習のコストが下がる</li>
</ul>
</li>
</ul>
code のリリースはまだない(2023/10/16 時点)
3 B 規模を一から学習(1~3 T tokens で)するよりは, より規模の大きいすでにあるモデル(llama-7B など)を reduction して 3B を作り, より少ない token 量で continually pretrain 学習することで, コストを抑えてモデルを作ることができるというのが利点か.