😎

2070superでQwen3-Nextを動かす

2025/09/27に公開

 【WindowsでQwen3-Nextをローカル実行】fastllm + ModelScope でWebUIを起動する手順環境: Windows 11 / RTX 2070 Super / Ryzen 7 3700X / 64GB RAM

対象モデル: Qwen3-Next-80B-A3B-Instruct-UD-Q4_K_M（通称：Qwen3 80B）

使用ライブラリ: fastllm + modelscope

 🔧 概要Alibabaの通義千問（Qwen）シリーズ最新版「Qwen3-80B」を、Windows環境でローカル実行する方法を紹介します。WebUI経由でチャット形式で利用できます。

 ✅ 環境動作確認

要素
状態


OS
Windows 11

CPU
AMD Ryzen 7 3700X

GPU
NVIDIA RTX 2070 Super (8GB VRAM)

RAM
64GB

モデルサイズ
Q4_K_M（約43GB)


 📦 インストール手順
 1. fastllm のインストールGitHub: ztxz16/fastllm
pip install https://www.modelscope.cn/models/huangyuyang/fastllmdepend-windows/resolve/master/ftllmdepend-0.0.0.1-py3-none-win_amd64.whl->
※ ftllmdepend はModelScopeから提供されるWindows用依存パッケージ。サーバー接続不安定な場合は手動ダウンロード推奨。私はブラウザでダウンロードしました。
pip install ftllm -U

 2. モデルのダウンロード（ModelScope）pip install modelscope
modelscope download --model huangyuyang/Qwen3-Next-80B-A3B-Instruct-UD-Q4_K_M
⚠️ ダウンロードが頻繁にタイムアウトするため、何度か再実行して完了させます。

モデルは C:\Users\{ユーザー名}\.cache\modelscope\hub\models\huangyuyang\Qwen3-Next-80B-A3B-Instruct-UD-Q4_K_M に保存されます。

 ▶️ 実行コマンドftllm webui "C:\Users\takuu\.cache\modelscope\hub\models\huangyuyang\Qwen3-Next-80B-A3B-Instruct-UD-Q4_K_M" --device cuda --moe_device cpu --threads 12
実行後、自動でStreamlit WebUIが立ち上がり、ブラウザで http://localhost:1616 にアクセスできます。

 💡 実行時のオプション説明

オプション
説明


--device cuda
推論をGPUで実行（RTX 2070 Superに対応）

--moe_device cpu
MoEレイヤーをCPUで処理（メモリ節約）

--threads 12
スレッド数（Ryzen 3700X 8コア/16スレッドに対応）

--max_token 4096
最大トークン長


 🖥️ 実行結果（画像付き）

 参考リンクfastllm GitHub
ModelScope Qwen3-80B モデルページ
Qwen公式サイト（英語）

要素	状態
OS	Windows 11
CPU	AMD Ryzen 7 3700X
GPU	NVIDIA RTX 2070 Super (8GB VRAM)
RAM	64GB
モデルサイズ	Q4_K_M（約43GB)

オプション	説明
`--device cuda`	推論をGPUで実行（RTX 2070 Superに対応）
`--moe_device cpu`	MoEレイヤーをCPUで処理（メモリ節約）
`--threads 12`	スレッド数（Ryzen 3700X 8コア/16スレッドに対応）
`--max_token 4096`	最大トークン長

【WindowsでQwen3-Nextをローカル実行】fastllm + ModelScope でWebUIを起動する手順

🔧 概要

✅ 環境動作確認

📦 インストール手順

1. fastllm のインストール

2. モデルのダウンロード（ModelScope）

▶️ 実行コマンド

💡 実行時のオプション説明

🖥️ 実行結果（画像付き）

参考リンク

Discussion