⚖️

Qwen3.5-27B の推論に適したハードウェアは?

に公開

概要

Qwen が2026年2月に発表した最新のオープンウェイトモデル Qwen3.5 シリーズは、主にエージェント型のコーディングタスクで今までの Qwen シリーズを超える性能となっており、少なくとも今後数か月はオープンウェイトモデルとして主流の選択肢の一つとなると考えられます。そこで今回は、 Qwen3.5 シリーズから中規模のモデル Qwen3.5-27B を使用して、次の 4 種類のデバイスで推論速度を調査しました。

  • H200 (エンタープライズ向け GPU )
  • RTX PRO 6000 Blackwell Max-Q Workstation Edition(ワークステーション向け GPU )
  • GeForce RTX 3090(コンシューマー向け GPU )
  • DGX Spark(エッジ AI デバイス)

環境構築

今回は、H200, RTX 6000 Blackwell Max-Q といった大規模な環境で使用される vLLM と、 RTX 3090 等のコンシューマー向け環境で使用される ollama の2種類のライブラリで推論環境を構築しました。DGX Spark は両方の環境構築を行ったため、実験したのは次の5通りとなります:

GPU vLLM ollama
H200 (x1) o -
RTX 6000 Blackwell Max-Q (x1) o -
RTX 3090 (x1) - o
DGX Spark (x1) o o

また、それぞれの環境で次の量子化モデルを使用しました。

vLLM の環境構築

H200 と RTX 6000 Blackwell Max-Q では、公式ドキュメント の通り vLLM を pip 経由でインストールします。

uv pip install vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly
CUDA_VISIBLE_DEVICES=0 vllm serve Qwen/Qwen3.5-27B-FP8

DGX Spark で vLLM を使うためには、 NVIDIA が作成した docker container 上で https://build.nvidia.com/spark/vllm/overview の手順に従って環境構築するのが一般的です。しかし、今回は新しいモデルを使用するため https://github.com/eugr/spark-vllm-docker に従って自力で docker container を作成します。

git clone https://github.com/eugr/spark-vllm-docker.git
cd spark-vllm-docker
./build-and-copy.sh
./launch-cluster.sh --solo exec vllm serve Qwen/Qwen3.5-27B-FP8

なお、公式ドキュメントに記載のある通り、 vLLM の推論時には --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}' を指定することで Multi-Token Prediction (MTP) 機能が使用できます。今回は追加するかどうかで2通りの測定を実施しました。

ollama の環境構築

ollama は次のコマンドで docker の上に環境構築します。

docker run -d --gpus '"device=0"' -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
docker exec -it ollama ollama run qwen3.5:27b

測定

vLLM はポート 8000 、ollama はポート 11434 に OpenAI 互換 API が立ち上がるので、 guidellm https://github.com/vllm-project/guidellm を利用して localhost からアクセスしたときの速度を測定します。

測定条件は、 synchronous (1アクセスずつ逐次)と throughput@32 ( 32 並列アクセス)の2通りとしました。測定時間は 60 秒、または処理されたリクエスト数が少ないときは 600 秒としました。入力 256 トークン、出力 128 トークンのランダムな文字列をデータセットとして使用しました。

測定対象は、出力トークンの生成速度 gen/s と、入力トークンも含めた全体の処理速度 tot/s の二種類としました。

guidellm benchmark \
  --target "http://localhost:<port>" \
  --profile <synchronous または throughput --rate 32> \
  --max-seconds <60 または 600> \
  --data "prompt_tokens=256,output_tokens=128"

結果は以下の表のとおりです。

GPU library MTP synchronous [gen/s] synchronous [tot/s] throughput@32 [gen/s] throughput@32 [tot/s]
H200 vLLM - 62.4 192.0 1105.0 3400.9
H200 vLLM o 105.3 324.0 1651.3 5082.2
RTX 6000 Blackwell Max-Q vLLM - 28.4 87.4 526.8 1621.5
RTX 6000 Blackwell Max-Q vLLM o 54.0 166.3 955.5 2940.7
RTX 3090 ollama - 27.5 30.3 30.1 33.6
DGX Spark vLLM - 7.4 22.8 101.2 311.6
DGX Spark vLLM o 13.9 42.8 199.2 613.0
DGX Spark ollama - 14.7 16.7 16.1 17.7

H200 は 4 つの環境の中で最も速く、MTP の設定を加えた場合 100 token/sec を超える速度で推論ができます。また、 32 並列という大量のアクセスがあっても、 1600 token/sec つまりユーザーあたり 50 token/sec を維持しています。

RTX 6000 Blackwell Max-Q は、各測定ケースで H200 の半分ほどの速度になっています。人間が読む速度を大きく上回っており通常のチャットには十分ですが、エージェントとして利用するときの快適さは H200 のほうが上回ります。

RTX 3090 は、逐次的に利用した場合 RTX 6000 Blackwell Max-Q の半分ほどの速度で推論ができます。今回の実験ではデフォルトの設定のままだったので、並列リクエストをしてもほとんど性能が向上しませんでした。

最後に、DGX Spark は RTX 3090 のさらに半分ほどの速度です。逐次アクセスではストリーミングを眺めてちょうど追える程度の速度(下図)で、 reasoning トークンを含めると待ち時間がかなり長く感じます。より速度を求めるのであれば、今回試した 27B モデルより Qwen/Qwen3.5-35B-A3B のような MoE モデルのほうが適していると考えられます。

コストパフォーマンスに関する考察

今回の 4 つの環境のうち、 DGX Spark を除く3つは時間単位でのレンタルが可能です。今回は https://vast.ai/pricing の記事執筆時点の最安値を使用して、100万トークンあたりの価格を算出しました。 DGX Spark は、購入して使い続けたことを仮定して、1時間あたりの稼働コストを $0.2 とみなし計算しました(80万円 / 4年 + 250W × 31円/kWh = 30.4円/h = 0.194 USD/h)。

GPU library MTP cost [USD/h] synchronous [USD/Mgen] synchronous [USD/Mtot] throughput@32 [USD/Mgen] throughput@32 [USD/Mtot]
H200 vLLM o 2.32 6.12 1.99 0.39 0.13
RTX 6000 Blackwell Max-Q vLLM o 0.76 3.91 1.27 0.22 0.07
RTX 3090 ollama - 0.13 1.31 1.19 1.20 1.08
DGX Spark vLLM o 0.20 4.00 1.30 0.28 0.09
DGX Spark ollama - 0.20 3.78 3.33 3.45 3.14

一人で逐次的に使用する場合、 RTX 3090 を使う ($1.31) のが他の 3 倍程度 コストパフォーマンスに優れていることがわかります。RTX 6000 Blackwell Max-Q ($3.91) は DGX Spark ($3.78) と同程度のコストですが推論が4倍速いので、できれば Max-Q を使いたいです。 H200 はさらに 1.5 倍ほど高価 ($6.12) ですが、2倍ほど速いので状況によっては使う価値があるといえます。

並列に使う場合、トークン単価が最も安いのは RTX 6000 Blackwell Max-Q ($0.22) で、 DGX Spark (vLLM) は 20 %ほど高価かつ 4 倍ほど遅くなってしまいます。 H200 は逐次使用と同じく高価だが速い選択肢となっています。

ちなみに openrouter で API を使用した場合、入力 100 万トークンあたり $0.3, 出力は $2.4 となっています。今回の測定と正確な比較はできませんが最安値どうしを比べると、 RTX 6000 Blackwell Max-Q をセルフホストした場合 100 万トークンあたり $0.07 なので、推論コストを4分の1程度に抑えることができます。

まとめ

Qwen3.5-27B の推論に適したハードウェアとして4種類を検討しました。それぞれ特徴があり、導入する際のコストと使用頻度、求める快適性などを踏まえて、最適なものを選択する必要があると考えます。

  • 平均的にコスパが良いのは RTX 6000 Blackwell Max-Q
  • 最速を求めるなら H200
  • 逐次推論でよいがコストを抑えたいのであれば RTX 3090 (または同程度のメモリを搭載した GPU )
  • サイズや電力など特殊な要求があるなら DGX Spark
Fixstars Tech Blog /proc/cpuinfo

Discussion