DeepSeek R1をローカルで動かしたい

https://note.com/cppp_cpchan/n/n3c1039c80dd0
ここに則って
CUDA Toolkit 12.9をインストール
cuDNNのインストールはスキップ
w64devkit 2.2.0をインストール
cudart-llama-bin-win-cuda12.4-x64.zip、llama-b5361-bin-win-cpu-x64.zipをダウンロード

bartowski/DeepSeek-R1-Distill-Qwen-14B-GGUF をダウンロード

こっこさん

実行

w64devkit

$ ./llama-server.exe -m ../models/DeepSeek-R1-Distill-Qwen-14B-Q6_K.gguf
（中略）
main: server is listening on http://127.0.0.1:8080 - starting the main loop
srv  update_slots: all slots are idle

こっこさん

http://127.0.0.1:8080/
3 tok/sec.程度

こっこさん

load_tensors: offloading 48 repeating layers to GPU
load_tensors: offloading output layer to GPU
load_tensors: offloaded 49/49 layers to GPU

の表示はあるが、GPUのメモリ使用率は微動だにしない

こっこさん

CUDA Toolkit 12.4をインストールしてみる
→ さすがに12.7をアンインストールしていないからか失敗する

こっこさん

趣向を変え、LM Studioを試す
https://lmstudio.ai/

こっこさん

すぐに動いた！
deepseek-r1-distill-qwen-7bで13.94 tok/sec