✳️

DeepSeek-R1(本物) の 1.58bit版 を Jetson AGX Orinで回してみる

2025/01/30に公開

Bitnet版のDeepSeek-R1を触ってみました。蒸留版ではないです。

https://huggingface.co/unsloth/DeepSeek-R1-GGUF

実行速度はこのぐらい

(止まってないです。。)

途中でとめましたが、数字でみると以下の通りです。

llama_perf_sampler_print:    sampling time =      21.34 ms /   156 runs   (    0.14 ms per token,  7310.22 tokens per second)
llama_perf_context_print:        load time =  409461.73 ms
llama_perf_context_print: prompt eval time =   22445.82 ms /    12 tokens ( 1870.48 ms per token,     0.53 tokens per second)
llama_perf_context_print:        eval time = 1132441.55 ms /   143 runs   ( 7919.17 ms per token,     0.13 tokens per second)
llama_perf_context_print:       total time = 1155864.34 ms /   155 tokens

実行方法

環境は、こちらで紹介しているもので大丈夫でした。

https://zenn.dev/headwaters/articles/a05b133a86c09c#コンテナ設定

プログラムの実行は、提供元の指示の通りで大丈夫でした。

https://huggingface.co/unsloth/DeepSeek-R1-GGUF#instructions-to-run-this-model-in-llamacpp

問題の以下の部分ですが、n-gpu-layers 20としてDRAM 1.1G, VRAM 53.6GBの消費でした。

  ./llama.cpp/llama-cli \
    --model DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
    --cache-type-k q4_0 \
    --threads 12 -no-cnv --prio 2 \
    --n-gpu-layers 7 \
    --temp 0.6 \
    --ctx-size 8192 \
    --seed 3407 \
    --prompt "<|User|>Create a Flappy Bird game in Python.<|Assistant|>"

今回動作させたのは1.58bit量子化版ですが、こちらを見ると、2.51-bit量子化版にBest Qualityとの評価が下されており、気になります。

671Bモデルが手元で動く感動を味わえました。
671Bモデルの1.58bit量子化版を選ぶ現実ユースケースってあるのかな、と思いますが。。

ヘッドウォータース

Discussion