🔬

【検証】RTX 5090でQwen3.6-35B-A3Bを動かす — 18 t/sの罠とQwen3.5との本当の差

に公開2

2026年4月時点の検証内容です。llama.cppやモデルのアップデートにより数値は変わる可能性があります。

はじめに

Qwen3.6-35B-A3B が2026年4月15日にリリースされました。前世代の Qwen3.5-35B-A3B は RTX 5090 + llama.cpp で TG 214 t/s という十分な速度が出ており、筆者の AITuber バックエンドとして実際に使っています。

今回は「Qwen3.6に乗り換えられるか」を確かめるために実機検証しました。結果として 最初に出た 18 t/s という数値の真因が予想外のところにあったので、その過程ごと記録します。

前作の記事(RTX 5090 + Qwen3.5 MXFP4/Q4_K_M 比較)と同じ環境・同じ視点で書いているので、あわせて読むと比較しやすいと思います。

検証環境

項目 詳細
GPU NVIDIA GeForce RTX 5090(32GB VRAM, Blackwell SM 12.0)
llama.cpp b8870(82209efb7, 2026-04-21 ビルド)
ビルド cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=120
OS WSL2 Ubuntu 24.04
モデル格納 WSL2 ext4 → 高速 mmap

対象モデルと量子化

Qwen3.6-35B-A3B は unsloth の UD(Unsloth Dynamic)GGUF を使用しました。

量子化 ファイルサイズ VRAM概算
UD-Q4_K_M 20.6 GB ~23 GB
UD-Q5_K_S 23.2 GB ~25 GB

UD(Unsloth Dynamic)は重要な層を高精度、非重要な層を低精度にする混合量子化です。均一量子化と同じサイズでも品質劣化を抑えられるのが特徴です。

比較対象として Qwen3.5-35B-A3B Q4_K_M(20.6 GB)も同時計測しています。

最初の計測 — 18 t/sの衝撃

モデルをダウンロードして llama-bench を走らせると、こんな結果が出ました。

TG 128:18 t/s

Qwen3.5 が 214 t/s 出ていた環境で約1/12です。llama.cpp が Qwen3.6 に未対応なのか、と疑いましたが、よく調べると別の原因でした。

真因調査

まず Qwen3.5 との比較から始めました。

# Qwen3.5 Q4_K_M
llama-bench ... TG 214 t/s

# Qwen3.6 Q5_K_S(同条件)
llama-bench ... TG 18 t/s

llama.cpp の非対応なら Qwen3.5 も影響を受けるはず。Qwen3.5 は正常なので、モデル固有の問題と判断しました。

次に VRAM 使用状況を確認しました。

nvidia-smi --query-gpu=memory.used,memory.free --format=csv,noheader,nounits
# → 30067, 2533

VRAM 使用量が 30 GB を超えていました。

原因は Ollama でした。Windows 側で動いている Ollama が qwen3.6:latest(Q4_K_M, 22.7 GB)をロードしたまま待機していたのです。

Ollama qwen3.6:latest (Q4_K_M):22.7 GB
Gemma-4-E4B(Hermes バックエンド):7 GB
合計:約 30 GB → 残り 2.5 GB

llama.cpp の Qwen3.6 Q5_K_S(23.2 GB)は残り 2.5 GB では GPU に収まらず、CPU にフォールバックしていました。 CPU 推論の 18 t/s が答えでした。

llama.cpp のビルド確認

Qwen3.6 のリリース(2026-04-15)より前にビルドした llama.cpp(b8738, 2026-04-09)を使っていました。新機能が入っていない可能性があるため、git pull してリビルドしました。

cd ~/projects/llama.cpp
git pull
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=120
cmake --build build --config Release -j$(nproc) -t llama-server llama-bench
# b8738 → b8870(132コミット更新)

クリーン VRAM + 新バイナリで再計測

Ollama をアンロード(keep_alive: 0 で POST)し、VRAM を 7 GB まで解放してから再計測しました。

llama-bench 結果(pp512 / tg128 / r=3)

条件 PP 512 (t/s) TG 128 (t/s)
Qwen3.5 Q4_K_M — v8738 ※参考値 4151 214
Qwen3.6 Q5_K_S — v8738(clean VRAM) 2382 153
Qwen3.6 Q5_K_S — v8870(clean VRAM) 3293 180
Qwen3.6 Q4_K_M — v8870(clean VRAM) 2892 183
Qwen3.6 Q5_K_S — VRAM溢れ(CPU fallback) 18 ⚠️

llama.cpp の更新(b8738→b8870)でTGが 153→180 t/s(+18%) 改善しました。Qwen3.6 固有の最適化が入ったものと思われます。

※ Qwen3.5 は v8738 のままで再計測していないため参考値です。v8870 ではさらに速くなる可能性があります。

気づき:Q4_K_M と Q5_K_S の速度差がほぼない

UD 量子化の効果が如実に出ています。

量子化 サイズ TG (t/s) VRAM差
Q5_K_S 23.2 GB 180 +2.6 GB
Q4_K_M 20.6 GB 183 基準

通常の均一量子化なら Q5 > Q4 の順に速くなりますが、UD は重要層を高精度のまま保つため、Q4_K_M でも品質の劣化が小さく、かつ速度も同等です。VRAM を節約したいなら Q4_K_M 一択です。

Qwen3.5 vs Qwen3.6 の総合比較

項目 Qwen3.5 Q4_K_M Qwen3.6 Q4_K_M
ファイルサイズ 20.6 GB 20.6 GB
VRAM概算 ~22 GB ~23 GB
PP 512 (t/s) 4151 2892
TG 128 (t/s) 214 183
TG 速度比 基準 -15%

同サイズでQwen3.5のほうが約15%速い。

速度だけを見れば Qwen3.5 が有利です。Qwen3.6 への乗り換え根拠は品質差次第です。

品質評価(実用プロンプト 5問)

llama-server 経由で同じプロンプトを両モデルに投げて比較しました。Qwen3 系には思考(Thinking)モードがありますが、AITuber での実運用に合わせて --reasoning-budget 0 で無効化しています(有効にすると <think> タグ内の思考トークンが大量に発生し、体感レイテンシが跳ね上がります)。max_tokens=300 で揃えています。

結果サマリー

プロンプト Qwen3.5 Qwen3.6 所感
AITuberキャラ応答 短くて自然 キャラ名の意味を活かした発想、絵文字豊富 3.6が面白い
日本語推論 正解・簡潔 正解・箇条書きで整理 引き分け
技術説明(30秒) 比喩が秀逸 ⚠️ 「电脑」(中国語)混入 3.5が安定
AI雑談 短く対話的 長め・情報量多い 用途次第
創造的推論 体系的 同水準 引き分け

差が出た2問の実際の回答を抜粋します。

AITuberキャラ応答(「白紙ちゃんって本当に賢いの?」)

Qwen3.5:

えへへ、そんなことを言うなんて、白紙ちゃんの頭脳をなめてる?!もちろん賢いよ?!だって、私、何でも一瞬で理解しちゃう「天才」なんだもん♪

Qwen3.6:

私の頭脳は「白紙」だからこそ、どんな問題でも瞬時にクリアに書き換えられる超高性能ハードウェアなのよ!🧠💡

Qwen3.6 はキャラ名「白紙」の意味を拾って返答を作っています。キャラクター性の表現としては 3.6 が一枚上手でした。

技術説明(量子コンピュータを中学生向けに)

Qwen3.5:

普通のパソコンは「1か0」のスイッチで計算しますが、量子コンピュータは「1と0を同時に」扱えるので、何万倍も速く複雑な計算ができます。まるで迷路を全部同時に進めるようなもの。

Qwen3.6:

普通のパソコンは、電球の「ON」「OFF」で情報を処理します。一方、量子コンピュータは「ON でも OFF でもあり得る」特殊な状態を使います。これにより、複雑な問題を並列に一気に解けるため、従来の电脑では何百年もかかる計算を瞬時に終わらせることができます。

Qwen3.5 の「迷路を全部同時に進める」比喩は子ども向けとして優秀でした。Qwen3.6 は「电脑」(中国語でコンピュータ)が混入しており、実運用では問題になります。

まとめ

今回の検証で得られた知見:

  1. 18 t/sの原因はllama.cppではなくVRAM溢れ
    Ollama の待機モデルが VRAM を占有したまま llama.cpp を起動すると CPU フォールバックが起きる。複数ツールを同時使用するときは要注意。

  2. llama.cpp はビルド日が重要
    モデルリリース前のバイナリではモデル固有の最適化が入っていない。新モデルを試すときは git pull からやり直すのが安全。

  3. UD 量子化なら Q4_K_M で十分
    Q5_K_S と Q4_K_M で速度差はほぼなし(183 vs 180 t/s)。VRAM を 2.5 GB 節約できるので、ComfyUI や TTS と同時稼働したいなら Q4_K_M を選ぶべき。

  4. Qwen3.6 は Qwen3.5 より 15% 遅い(同サイズ比)
    速度を最優先するなら今も Qwen3.5 Q4_K_M が有利。品質面での差を重視するかどうかで判断が変わる。


参考

GitHubで編集を提案

Discussion

hondaruhondaru

5090流石爆速ですね

toki_mwctoki_mwc

ありがとうございます!ただ、VRAMを他に食われると一気に18 t/sまで落ちるので、爆速を活かすにはVRAM管理が肝でした笑