😎

2070superでQwen3-Nextを動かす

に公開

【WindowsでQwen3-Nextをローカル実行】fastllm + ModelScope でWebUIを起動する手順

環境: Windows 11 / RTX 2070 Super / Ryzen 7 3700X / 64GB RAM
対象モデル: Qwen3-Next-80B-A3B-Instruct-UD-Q4_K_M(通称:Qwen3 80B)
使用ライブラリ: fastllm + modelscope


🔧 概要

Alibabaの通義千問(Qwen)シリーズ最新版「Qwen3-80B」を、Windows環境でローカル実行する方法を紹介します。WebUI経由でチャット形式で利用できます。


✅ 環境動作確認

要素 状態
OS Windows 11
CPU AMD Ryzen 7 3700X
GPU NVIDIA RTX 2070 Super (8GB VRAM)
RAM 64GB
モデルサイズ Q4_K_M(約43GB)

📦 インストール手順

1. fastllm のインストール

GitHub: ztxz16/fastllm

pip install https://www.modelscope.cn/models/huangyuyang/fastllmdepend-windows/resolve/master/ftllmdepend-0.0.0.1-py3-none-win_amd64.whl->

ftllmdepend はModelScopeから提供されるWindows用依存パッケージ。サーバー接続不安定な場合は手動ダウンロード推奨。私はブラウザでダウンロードしました。

pip install ftllm -U

2. モデルのダウンロード(ModelScope)

pip install modelscope
modelscope download --model huangyuyang/Qwen3-Next-80B-A3B-Instruct-UD-Q4_K_M

⚠️ ダウンロードが頻繁にタイムアウトするため、何度か再実行して完了させます。
モデルは C:\Users\{ユーザー名}\.cache\modelscope\hub\models\huangyuyang\Qwen3-Next-80B-A3B-Instruct-UD-Q4_K_M に保存されます。


▶️ 実行コマンド

ftllm webui "C:\Users\takuu\.cache\modelscope\hub\models\huangyuyang\Qwen3-Next-80B-A3B-Instruct-UD-Q4_K_M" --device cuda --moe_device cpu --threads 12

実行後、自動でStreamlit WebUIが立ち上がり、ブラウザで http://localhost:1616 にアクセスできます。


💡 実行時のオプション説明

オプション 説明
--device cuda 推論をGPUで実行(RTX 2070 Superに対応)
--moe_device cpu MoEレイヤーをCPUで処理(メモリ節約)
--threads 12 スレッド数(Ryzen 3700X 8コア/16スレッドに対応)
--max_token 4096 最大トークン長

🖥️ 実行結果(画像付き)


参考リンク

Discussion