【検証】RTX 5090でQwen3.6-35B-A3Bを動かす — 18 t/sの罠とQwen3.5との本当の差
2026年4月時点の検証内容です。llama.cppやモデルのアップデートにより数値は変わる可能性があります。
はじめに
Qwen3.6-35B-A3B が2026年4月15日にリリースされました。前世代の Qwen3.5-35B-A3B は RTX 5090 + llama.cpp で TG 214 t/s という十分な速度が出ており、筆者の AITuber バックエンドとして実際に使っています。
今回は「Qwen3.6に乗り換えられるか」を確かめるために実機検証しました。結果として 最初に出た 18 t/s という数値の真因が予想外のところにあったので、その過程ごと記録します。
前作の記事(RTX 5090 + Qwen3.5 MXFP4/Q4_K_M 比較)と同じ環境・同じ視点で書いているので、あわせて読むと比較しやすいと思います。
検証環境
| 項目 | 詳細 |
|---|---|
| GPU | NVIDIA GeForce RTX 5090(32GB VRAM, Blackwell SM 12.0) |
| llama.cpp | b8870(82209efb7, 2026-04-21 ビルド) |
| ビルド | cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=120 |
| OS | WSL2 Ubuntu 24.04 |
| モデル格納 | WSL2 ext4 → 高速 mmap |
対象モデルと量子化
Qwen3.6-35B-A3B は unsloth の UD(Unsloth Dynamic)GGUF を使用しました。
| 量子化 | ファイルサイズ | VRAM概算 |
|---|---|---|
| UD-Q4_K_M | 20.6 GB | ~23 GB |
| UD-Q5_K_S | 23.2 GB | ~25 GB |
UD(Unsloth Dynamic)は重要な層を高精度、非重要な層を低精度にする混合量子化です。均一量子化と同じサイズでも品質劣化を抑えられるのが特徴です。
比較対象として Qwen3.5-35B-A3B Q4_K_M(20.6 GB)も同時計測しています。
最初の計測 — 18 t/sの衝撃
モデルをダウンロードして llama-bench を走らせると、こんな結果が出ました。
TG 128:18 t/s
Qwen3.5 が 214 t/s 出ていた環境で約1/12です。llama.cpp が Qwen3.6 に未対応なのか、と疑いましたが、よく調べると別の原因でした。
真因調査
まず Qwen3.5 との比較から始めました。
# Qwen3.5 Q4_K_M
llama-bench ... → TG 214 t/s ✅
# Qwen3.6 Q5_K_S(同条件)
llama-bench ... → TG 18 t/s ❌
llama.cpp の非対応なら Qwen3.5 も影響を受けるはず。Qwen3.5 は正常なので、モデル固有の問題と判断しました。
次に VRAM 使用状況を確認しました。
nvidia-smi --query-gpu=memory.used,memory.free --format=csv,noheader,nounits
# → 30067, 2533
VRAM 使用量が 30 GB を超えていました。
原因は Ollama でした。Windows 側で動いている Ollama が qwen3.6:latest(Q4_K_M, 22.7 GB)をロードしたまま待機していたのです。
Ollama qwen3.6:latest (Q4_K_M):22.7 GB
Gemma-4-E4B(Hermes バックエンド):7 GB
合計:約 30 GB → 残り 2.5 GB
llama.cpp の Qwen3.6 Q5_K_S(23.2 GB)は残り 2.5 GB では GPU に収まらず、CPU にフォールバックしていました。 CPU 推論の 18 t/s が答えでした。
llama.cpp のビルド確認
Qwen3.6 のリリース(2026-04-15)より前にビルドした llama.cpp(b8738, 2026-04-09)を使っていました。新機能が入っていない可能性があるため、git pull してリビルドしました。
cd ~/projects/llama.cpp
git pull
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=120
cmake --build build --config Release -j$(nproc) -t llama-server llama-bench
# b8738 → b8870(132コミット更新)
クリーン VRAM + 新バイナリで再計測
Ollama をアンロード(keep_alive: 0 で POST)し、VRAM を 7 GB まで解放してから再計測しました。
llama-bench 結果(pp512 / tg128 / r=3)
| 条件 | PP 512 (t/s) | TG 128 (t/s) |
|---|---|---|
| Qwen3.5 Q4_K_M — v8738 ※参考値 | 4151 | 214 |
| Qwen3.6 Q5_K_S — v8738(clean VRAM) | 2382 | 153 |
| Qwen3.6 Q5_K_S — v8870(clean VRAM) | 3293 | 180 |
| Qwen3.6 Q4_K_M — v8870(clean VRAM) | 2892 | 183 |
| Qwen3.6 Q5_K_S — VRAM溢れ(CPU fallback) | — | 18 ⚠️ |
llama.cpp の更新(b8738→b8870)でTGが 153→180 t/s(+18%) 改善しました。Qwen3.6 固有の最適化が入ったものと思われます。
※ Qwen3.5 は v8738 のままで再計測していないため参考値です。v8870 ではさらに速くなる可能性があります。
気づき:Q4_K_M と Q5_K_S の速度差がほぼない
UD 量子化の効果が如実に出ています。
| 量子化 | サイズ | TG (t/s) | VRAM差 |
|---|---|---|---|
| Q5_K_S | 23.2 GB | 180 | +2.6 GB |
| Q4_K_M | 20.6 GB | 183 | 基準 |
通常の均一量子化なら Q5 > Q4 の順に速くなりますが、UD は重要層を高精度のまま保つため、Q4_K_M でも品質の劣化が小さく、かつ速度も同等です。VRAM を節約したいなら Q4_K_M 一択です。
Qwen3.5 vs Qwen3.6 の総合比較
| 項目 | Qwen3.5 Q4_K_M | Qwen3.6 Q4_K_M |
|---|---|---|
| ファイルサイズ | 20.6 GB | 20.6 GB |
| VRAM概算 | ~22 GB | ~23 GB |
| PP 512 (t/s) | 4151 | 2892 |
| TG 128 (t/s) | 214 | 183 |
| TG 速度比 | 基準 | -15% |
同サイズでQwen3.5のほうが約15%速い。
速度だけを見れば Qwen3.5 が有利です。Qwen3.6 への乗り換え根拠は品質差次第です。
品質評価(実用プロンプト 5問)
llama-server 経由で同じプロンプトを両モデルに投げて比較しました。Qwen3 系には思考(Thinking)モードがありますが、AITuber での実運用に合わせて --reasoning-budget 0 で無効化しています(有効にすると <think> タグ内の思考トークンが大量に発生し、体感レイテンシが跳ね上がります)。max_tokens=300 で揃えています。
結果サマリー
| プロンプト | Qwen3.5 | Qwen3.6 | 所感 |
|---|---|---|---|
| AITuberキャラ応答 | 短くて自然 | キャラ名の意味を活かした発想、絵文字豊富 | 3.6が面白い |
| 日本語推論 | 正解・簡潔 | 正解・箇条書きで整理 | 引き分け |
| 技術説明(30秒) | 比喩が秀逸 | ⚠️ 「电脑」(中国語)混入 | 3.5が安定 |
| AI雑談 | 短く対話的 | 長め・情報量多い | 用途次第 |
| 創造的推論 | 体系的 | 同水準 | 引き分け |
差が出た2問の実際の回答を抜粋します。
AITuberキャラ応答(「白紙ちゃんって本当に賢いの?」)
Qwen3.5:
えへへ、そんなことを言うなんて、白紙ちゃんの頭脳をなめてる?!もちろん賢いよ?!だって、私、何でも一瞬で理解しちゃう「天才」なんだもん♪
Qwen3.6:
私の頭脳は「白紙」だからこそ、どんな問題でも瞬時にクリアに書き換えられる超高性能ハードウェアなのよ!🧠💡
Qwen3.6 はキャラ名「白紙」の意味を拾って返答を作っています。キャラクター性の表現としては 3.6 が一枚上手でした。
技術説明(量子コンピュータを中学生向けに)
Qwen3.5:
普通のパソコンは「1か0」のスイッチで計算しますが、量子コンピュータは「1と0を同時に」扱えるので、何万倍も速く複雑な計算ができます。まるで迷路を全部同時に進めるようなもの。
Qwen3.6:
普通のパソコンは、電球の「ON」「OFF」で情報を処理します。一方、量子コンピュータは「ON でも OFF でもあり得る」特殊な状態を使います。これにより、複雑な問題を並列に一気に解けるため、従来の电脑では何百年もかかる計算を瞬時に終わらせることができます。
Qwen3.5 の「迷路を全部同時に進める」比喩は子ども向けとして優秀でした。Qwen3.6 は「电脑」(中国語でコンピュータ)が混入しており、実運用では問題になります。
まとめ
今回の検証で得られた知見:
-
18 t/sの原因はllama.cppではなくVRAM溢れ
Ollama の待機モデルが VRAM を占有したまま llama.cpp を起動すると CPU フォールバックが起きる。複数ツールを同時使用するときは要注意。 -
llama.cpp はビルド日が重要
モデルリリース前のバイナリではモデル固有の最適化が入っていない。新モデルを試すときはgit pullからやり直すのが安全。 -
UD 量子化なら Q4_K_M で十分
Q5_K_S と Q4_K_M で速度差はほぼなし(183 vs 180 t/s)。VRAM を 2.5 GB 節約できるので、ComfyUI や TTS と同時稼働したいなら Q4_K_M を選ぶべき。 -
Qwen3.6 は Qwen3.5 より 15% 遅い(同サイズ比)
速度を最優先するなら今も Qwen3.5 Q4_K_M が有利。品質面での差を重視するかどうかで判断が変わる。
Discussion
5090流石爆速ですね
ありがとうございます!ただ、VRAMを他に食われると一気に18 t/sまで落ちるので、爆速を活かすにはVRAM管理が肝でした笑