🦙

LLaMa 13B を 3090x2 で動かすメモ

2023/03/10に公開

とりま動かすだけならそれほど設定いりません.

https://github.com/facebookresearch/llama

weight ダウンロードして example.py 動かすだけです.
example.py ではモデルサイズに応じて MP ぶんの GPU が要ります.
今回 3090x2 なマシンで 13B (MP 2) 試しました.

https://twitter.com/syoyo/status/1634169048564133893?s=20

example.py で 13B で 3090 x2 で生成時間は 22 秒でした. word(token) 数は 800 くらいなので 36 tokens/sec くらいカナ?
デフォだと repeat 多めだったりなので, temperature 変えたり, sampling したり, etc したら chatbot 用とかだともうちょっと性能下がるかもですが, まあまあ反応良さそうな Chatbot 作るにはよさそうでしょうか.

メモリ消費は 20 GB + 20 GB でした.

3090 x 4 などの方は 33B 試してみるとよいでしょう.

Chatbot に使いたい!

https://rentry.org/llama-tard-v2

huggingface?

huggingface にもぼちぼちアップロードされてきています(まだ限定公開だったような気がするがええんか...)

ただ huggingface transformers(ややこしい名前であるが LLM などのモデルをぺろっと読んで処理したりするライブラリ)では llama 対応はまだのようです(fork などで対応しているものがあったりするようであるが). transformers でモデル直読みみたいなオプションはあるのカナ?(Config class をなんか用意すればいけるようだが, ソースコード読むのめんどい)

まあそのうち普通に transformers でも使えることになることでしょう.

TODO

  • LLaMA Int8 4bit ChatBot Guide v2 を参考に Chatbot 作る

Discussion