✳️

DeepSeek-R1(本物) の 1.58bit版を Jetson AGX Orinで回してみる

阿久津

2025/01/30に公開

DeepSeek

tech

Bitnet版のDeepSeek-R1を触ってみました。蒸留版ではないです。
https://huggingface.co/unsloth/DeepSeek-R1-GGUF

 実行速度はこのぐらい
(止まってないです。。)
途中でとめましたが、数字でみると以下の通りです。
llama_perf_sampler_print:    sampling time =      21.34 ms /   156 runs   (    0.14 ms per token,  7310.22 tokens per second)
llama_perf_context_print:        load time =  409461.73 ms
llama_perf_context_print: prompt eval time =   22445.82 ms /    12 tokens ( 1870.48 ms per token,     0.53 tokens per second)
llama_perf_context_print:        eval time = 1132441.55 ms /   143 runs   ( 7919.17 ms per token,     0.13 tokens per second)
llama_perf_context_print:       total time = 1155864.34 ms /   155 tokens

 実行方法環境は、こちらで紹介しているもので大丈夫でした。
https://zenn.dev/headwaters/articles/a05b133a86c09c#コンテナ設定
プログラムの実行は、提供元の指示の通りで大丈夫でした。
https://huggingface.co/unsloth/DeepSeek-R1-GGUF#instructions-to-run-this-model-in-llamacpp
問題の以下の部分ですが、n-gpu-layers 20としてDRAM 1.1G, VRAM 53.6GBの消費でした。
  ./llama.cpp/llama-cli \
    --model DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
    --cache-type-k q4_0 \
    --threads 12 -no-cnv --prio 2 \
    --n-gpu-layers 7 \
    --temp 0.6 \
    --ctx-size 8192 \
    --seed 3407 \
    --prompt "<｜User｜>Create a Flappy Bird game in Python.<｜Assistant｜>"

 This is a footer今回動作させたのは1.58bit量子化版ですが、こちらを見ると、2.51-bit量子化版にBest Qualityとの評価が下されており、気になります。
671Bモデルが手元で動く感動を味わえました。

671Bモデルの1.58bit量子化版を選ぶ現実ユースケースってあるのかな、と思いますが。。

ヘッドウォータース

株式会社ヘッドウォータースのテックブログです。 AIエージェント、生成AI、LLM、Azureのサービスや資格、IoT、XR系などData&AIとApp modernizeに関して幅広く投稿します！

実行速度はこのぐらい

実行方法

This is a footer

Discussion