👋

DeepSeek-R1をローカル環境で動かしたらあっさり動いた

2025/01/29に公開

ローカル LLM

DeepSeek

tech

先週にDeepSeek-R1というのが発表され、ツヨツヨでないマシンでも動くと話題でしたので、おうちのGPUマシンでも動かしてみました。

結果上の図の通り、あっさり動きました。

 動かした環境CPU: Ryzen7 5700X
Memory: 16GBx2
GPU: 3060Ti(VRAM8GB)
OS: Ubuntu 22.04(CUDA周りのドライバはインストール済み)

 確認した動かし方LM Studio
オフィシャルの蒸留した奴の14B Paramを6bitで量子化したモデル(https://huggingface.co/bartowski/DeepSeek-R1-Distill-Qwen-14B-GGUF のQ6_K) と、サイバーエージェントが日本語向けにFineTuneした4bitモデル(https://huggingface.co/bluepen5805/DeepSeek-R1-Distill-Qwen-14B-Japanese-gguf のQ4_K_M)
LMStudioの使い方はこちらも参照 https://qiita.com/ayoyo/items/03523afde205b2fd5845

上に載せたGGUFファイルはどちらもLMStudioから直接はダウンロードできないので、huggingfaceからダウンロードしたものをLMStudio内のフォルダに手動で移動

GGUFファイルの動かし方知らないのLMStudio使ったんですが、補足説明のページ見たらllama-cliで動きそうですね・・(https://huggingface.co/mmnga/cyberagent-DeepSeek-R1-Distill-Qwen-14B-Japanese-gguf)

 実行結果40秒～3分くらいで返信の初手が来ます。その後も徐々に回答は得られます。

 所感使ってみるまで量子化とは？みたいな感じだったのですが。無いととても一般ユーザのマシンでは無理ですね。データがVRAMに載らなすぎます。VRAM128GBぐらいのGPUが欲しい。誰かRAM80GBのA100ください(https://kakaku.com/item/K0001511810/)
ChatGPTやClaude3.5の方が早いものの、これまでサービス依存しまくりだったものがお家のマシンで使えるのはいいですね。また上の使い方のページですと量子化すると精度悪いという話でしたが、オフィシャルはたまにハングル文字混ざるものの、サイバーエージェントのFineTuneだと割とまともに返せてる印象があります。外部SaaS絶対不可な会社もこれを内部で使うにはありなんじゃないでしょうか。

動かした環境

確認した動かし方

実行結果

所感

Discussion