DeepSeek-R1をローカル環境で動かしたらあっさり動いた
先週にDeepSeek-R1というのが発表され、ツヨツヨでないマシンでも動くと話題でしたので、おうちのGPUマシンでも動かしてみました。
結果上の図の通り、あっさり動きました。
動かした環境
- CPU: Ryzen7 5700X
- Memory: 16GBx2
- GPU: 3060Ti(VRAM8GB)
- OS: Ubuntu 22.04(CUDA周りのドライバはインストール済み)
確認した動かし方
- LM Studio
- オフィシャルの蒸留した奴の14B Paramを6bitで量子化したモデル(https://huggingface.co/bartowski/DeepSeek-R1-Distill-Qwen-14B-GGUF のQ6_K) と、サイバーエージェントが日本語向けにFineTuneした4bitモデル(https://huggingface.co/bluepen5805/DeepSeek-R1-Distill-Qwen-14B-Japanese-gguf のQ4_K_M)
LMStudioの使い方はこちらも参照 https://qiita.com/ayoyo/items/03523afde205b2fd5845
上に載せたGGUFファイルはどちらもLMStudioから直接はダウンロードできないので、huggingfaceからダウンロードしたものをLMStudio内のフォルダに手動で移動
GGUFファイルの動かし方知らないのLMStudio使ったんですが、補足説明のページ見たらllama-cliで動きそうですね・・(https://huggingface.co/mmnga/cyberagent-DeepSeek-R1-Distill-Qwen-14B-Japanese-gguf)
実行結果
40秒~3分くらいで返信の初手が来ます。その後も徐々に回答は得られます。
所感
使ってみるまで量子化とは?みたいな感じだったのですが。無いととても一般ユーザのマシンでは無理ですね。データがVRAMに載らなすぎます。VRAM128GBぐらいのGPUが欲しい。誰かRAM80GBのA100ください(https://kakaku.com/item/K0001511810/)
ChatGPTやClaude3.5の方が早いものの、これまでサービス依存しまくりだったものがお家のマシンで使えるのはいいですね。また上の使い方のページですと量子化すると精度悪いという話でしたが、オフィシャルはたまにハングル文字混ざるものの、サイバーエージェントのFineTuneだと割とまともに返せてる印象があります。外部SaaS絶対不可な会社もこれを内部で使うにはありなんじゃないでしょうか。
Discussion