💻
Kimi K2をGPUSOROBANで動かす
はじめに
皆さんこんにちは、一関高専 村上研究室所属 原科です。
この記事では、株式会社ハイレゾ様からGPUサーバーのレンタルサービス「GPUSOROBAN」の1ヶ月無料トライアルをご提供頂きましたので、そこで動かしたLLMについて紹介していきます。
対象読者
- Kimi K2に興味のある方
- GPUSOROBANに興味のある方
使ってみた
どうやって接続したか
vscodeのremote tunnelsで接続しました。
いつもの環境で接続できました。
Kimi K2について
Kimi K2(Kimi-K2)は、中国発のAIスタートアップ「Moonshot AI」が開発した、最先端Mixture-of-Experts(MoE)モデルです。合計パラメータ数は1兆(1T)、そのうち動的に活性化されるのは約320億(32 B)という構成となっており、効率性とスケーラビリティを両立させています。このモデルは、大規模な15.5兆トークンで事前学習され、MuonClipという新たな最適化手法を導入することで、従来の学習不安定性を解消しつつ高品質な学習を実現しました。
モデルのダウンロード
モデルは最も軽量なものを使用しましたが、それでも250GBほどあります。
分割ダウンロードを行い、lamma.cppを独自ビルドして使用しました。
実行
参考
動画1:不適切な設定で動作
まず、以下のような設定で実行しました。
./llama-cli \
-hf unsloth/Kimi-K2-Instruct-GGUF:TQ1_0 \
--cache-type-k q4_0 \
--threads -1 \
--n-gpu-layers 99 \
--temp 0.6 \
--min_p 0.01 \
--ctx-size 16384 \
--seed 3407 \
-ot ".ffn_(up)_exps.=CPU"
ここで、-ot ".ffn_.*_exps.=CPU"の引数が悪さをしており、この動画のような低いパフォーマンスになってしまいました。
動画2&3:適切な設定で実行
動画4:生成物
オセロができました。
その他の生成物

ちょうどgpt-ossやgpt-5がリリースされたときだったので、比較もしてみました。
以下のサイトから試せますので、ぜひ!
Discussion