✳️
DeepSeek-R1(本物) の 1.58bit版 を Jetson AGX Orinで回してみる
Bitnet版のDeepSeek-R1を触ってみました。蒸留版ではないです。
実行速度はこのぐらい
(止まってないです。。)
途中でとめましたが、数字でみると以下の通りです。
llama_perf_sampler_print: sampling time = 21.34 ms / 156 runs ( 0.14 ms per token, 7310.22 tokens per second)
llama_perf_context_print: load time = 409461.73 ms
llama_perf_context_print: prompt eval time = 22445.82 ms / 12 tokens ( 1870.48 ms per token, 0.53 tokens per second)
llama_perf_context_print: eval time = 1132441.55 ms / 143 runs ( 7919.17 ms per token, 0.13 tokens per second)
llama_perf_context_print: total time = 1155864.34 ms / 155 tokens
実行方法
環境は、こちらで紹介しているもので大丈夫でした。
プログラムの実行は、提供元の指示の通りで大丈夫でした。
問題の以下の部分ですが、n-gpu-layers 20
としてDRAM 1.1G, VRAM 53.6GBの消費でした。
./llama.cpp/llama-cli \
--model DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
--cache-type-k q4_0 \
--threads 12 -no-cnv --prio 2 \
--n-gpu-layers 7 \
--temp 0.6 \
--ctx-size 8192 \
--seed 3407 \
--prompt "<|User|>Create a Flappy Bird game in Python.<|Assistant|>"
This is a footer
今回動作させたのは1.58bit量子化版ですが、こちらを見ると、2.51-bit量子化版にBest Qualityとの評価が下されており、気になります。
671Bモデルが手元で動く感動を味わえました。
671Bモデルの1.58bit量子化版を選ぶ現実ユースケースってあるのかな、と思いますが。。
Discussion