💻

Kimi K2をGPUSOROBANで動かす

2025/08/29に公開

はじめに

皆さんこんにちは、一関高専村上研究室所属原科です。

この記事では、株式会社ハイレゾ様からGPUサーバーのレンタルサービス「GPUSOROBAN」の1ヶ月無料トライアルをご提供頂きましたので、そこで動かしたLLMについて紹介していきます。

https://soroban.highreso.jp/aispacon

対象読者

Kimi K2に興味のある方
GPUSOROBANに興味のある方

使ってみた

どうやって接続したか

vscodeのremote tunnelsで接続しました。
いつもの環境で接続できました。

Kimi K2について

Kimi K2（Kimi-K2）は、中国発のAIスタートアップ「Moonshot AI」が開発した、最先端Mixture-of-Experts（MoE）モデルです。合計パラメータ数は1兆（1T）、そのうち動的に活性化されるのは約320億（32 B）という構成となっており、効率性とスケーラビリティを両立させています。このモデルは、大規模な15.5兆トークンで事前学習され、MuonClipという新たな最適化手法を導入することで、従来の学習不安定性を解消しつつ高品質な学習を実現しました。

モデルのダウンロード

モデルは最も軽量なものを使用しましたが、それでも250GBほどあります。

分割ダウンロードを行い、lamma.cppを独自ビルドして使用しました。

実行

参考

動画１：不適切な設定で動作

まず、以下のような設定で実行しました。

./llama-cli \
    -hf unsloth/Kimi-K2-Instruct-GGUF:TQ1_0 \
    --cache-type-k q4_0 \
    --threads -1 \
    --n-gpu-layers 99 \
    --temp 0.6 \
    --min_p 0.01 \
    --ctx-size 16384 \
    --seed 3407 \
    -ot ".ffn_(up)_exps.=CPU"

ここで、-ot ".ffn_.*_exps.=CPU"の引数が悪さをしており、この動画のような低いパフォーマンスになってしまいました。

動画２＆３：適切な設定で実行

動画４：生成物

オセロができました。

その他の生成物

ちょうどgpt-ossやgpt-5がリリースされたときだったので、比較もしてみました。
以下のサイトから試せますので、ぜひ！
https://h-koichiro.github.io/osero/