💻

Kimi K2をGPUSOROBANで動かす

に公開

はじめに

皆さんこんにちは、一関高専 村上研究室所属 原科です。

この記事では、株式会社ハイレゾ様からGPUサーバーのレンタルサービス「GPUSOROBAN」の1ヶ月無料トライアルをご提供頂きましたので、そこで動かしたLLMについて紹介していきます。

https://soroban.highreso.jp/aispacon

対象読者

  • Kimi K2に興味のある方
  • GPUSOROBANに興味のある方

使ってみた

どうやって接続したか

vscodeのremote tunnelsで接続しました。
いつもの環境で接続できました。

Kimi K2について

Kimi K2(Kimi-K2)は、中国発のAIスタートアップ「Moonshot AI」が開発した、最先端Mixture-of-Experts(MoE)モデルです。合計パラメータ数は1兆(1T)、そのうち動的に活性化されるのは約320億(32 B)という構成となっており、効率性とスケーラビリティを両立させています。このモデルは、大規模な15.5兆トークンで事前学習され、MuonClipという新たな最適化手法を導入することで、従来の学習不安定性を解消しつつ高品質な学習を実現しました。

モデルのダウンロード

モデルは最も軽量なものを使用しましたが、それでも250GBほどあります。
https://huggingface.co/unsloth/Kimi-K2-Instruct-GGUF/tree/main/UD-TQ1_0
分割ダウンロードを行い、lamma.cppを独自ビルドして使用しました。

実行

参考
https://docs.unsloth.ai/basics/kimi-k2-how-to-run-locally?utm_source=chatgpt.com

動画1:不適切な設定で動作

まず、以下のような設定で実行しました。

./llama-cli \
    -hf unsloth/Kimi-K2-Instruct-GGUF:TQ1_0 \
    --cache-type-k q4_0 \
    --threads -1 \
    --n-gpu-layers 99 \
    --temp 0.6 \
    --min_p 0.01 \
    --ctx-size 16384 \
    --seed 3407 \
    -ot ".ffn_(up)_exps.=CPU"

ここで、-ot ".ffn_.*_exps.=CPU"の引数が悪さをしており、この動画のような低いパフォーマンスになってしまいました。

動画2&3:適切な設定で実行

動画4:生成物

オセロができました。

その他の生成物

ちょうどgpt-ossやgpt-5がリリースされたときだったので、比較もしてみました。
以下のサイトから試せますので、ぜひ!
https://h-koichiro.github.io/osero/

Discussion