Not蒸留物、本物のDeepSeek-R1(671B)を1.58bit量子化したモデルを動かす(1500円/時)
皆に本物のDeepSeek-R1を見せてあげますよ
お疲れ様です、波浪です。
DeepSeek R1をローカルPCで動かしました!ドヤっっってしてる記事がたくさんありますがその人たちが動かしているブツの大半はR1の蒸留物でサイズが13Bとかせいぜい70Bくらいなんですよね。
そんな中ガチのDeepseek-R1(model size 671B)の1.58bit量子化版がHFに登録されました。
それでも蒸留モデルよりは本物ですわ。
といっても、さすがに動かすためには最低でも24GBのVRAMと128GぐらいのRAMが必要です。(理論上は64Gでも動きそう?)
ま、逆に言えば、それが家にある人はこれをローカルPCで動かせちゃいます!
なお波浪の家にはRTX3090(24GB)はありますが、RAMが32しかのっていないのでこいつをすぐには試せません!!!!!
というわけでColabにのらないか、GCPでどうにかするか?をなやんでいたら
こちらのllama.cpp作った人のツイートが流れてきたんですな
このツイートのリンク先は以下なんですが
これはつまり、HuggingFaceにクレジットカード登録しておけば
ボタン一発でR1(1.58Bit)を試させてやるよと
なお金額は $ 8.3 /h だ
と、まあ、そういうわけですね。
ぶっちゃけhuggigFaceにクレジットカードちゃんと登録してあとはボタン押すだけなんで、なんも説明することはないんですが
実際に動かすとこれくらいの速度でtokenがでたんで実用可能レベルですね。
なお精度に関しては
この量子化モデル製作者unslothさんのBLOGにありますが、多少は落ちます。
日本語に関しては今からやりますが
取り急ぎ、驚き仕草しとこうと思ったんで記事をしたためた次第
はー、RAM買ってこよ。
以上、よろしくお願いします。
Discussion