🦙
LLaMa 13B を 3090x2 で動かすメモ
とりま動かすだけならそれほど設定いりません.
weight ダウンロードして example.py 動かすだけです.
example.py ではモデルサイズに応じて MP
ぶんの GPU が要ります.
今回 3090x2 なマシンで 13B (MP 2) 試しました.
example.py で 13B で 3090 x2 で生成時間は 22 秒でした. word(token) 数は 800 くらいなので 36 tokens/sec くらいカナ?
デフォだと repeat 多めだったりなので, temperature 変えたり, sampling したり, etc したら chatbot 用とかだともうちょっと性能下がるかもですが, まあまあ反応良さそうな Chatbot 作るにはよさそうでしょうか.
メモリ消費は 20 GB + 20 GB でした.
3090 x 4 などの方は 33B 試してみるとよいでしょう.
Chatbot に使いたい!
huggingface?
huggingface にもぼちぼちアップロードされてきています(まだ限定公開だったような気がするがええんか...)
ただ huggingface transformers(ややこしい名前であるが LLM などのモデルをぺろっと読んで処理したりするライブラリ)では llama 対応はまだのようです(fork などで対応しているものがあったりするようであるが). transformers でモデル直読みみたいなオプションはあるのカナ?(Config class をなんか用意すればいけるようだが, ソースコード読むのめんどい)
まあそのうち普通に transformers でも使えることになることでしょう.
TODO
-
LLaMA
Int84bit ChatBot Guide v2 を参考に Chatbot 作る
Discussion