Qwen3の速度とShaberi3ベンチマーク結果
2025-05-03 追記
Qwen3-235B-A22B の Shaberi3 ベンチマーク結果を実施したため、ここに追記します。
推論速度
速度の項にQwen3-235B-A22Bの推論速度 [tokens/s] も追記しました。
| モデル | prompt eval rate | eval rate |
|---|---|---|
| Qwen3-235B-A22B:UD-Q3_K_XL_think | 56.08 | 16.60 |
eval rate はそこそこ速いですが、prompt eval rate が遅いのが気になります。
例えばコーディングエージェントとして使うときには、数千トークンの入力は当たり前なのでプロンプトを入力してから生成が開始されるまでにかなり待たされることは必至です。
とはいえ、下記のような用途では有用そうです。
- 1 ターンの処理
- Auto approve でのコーディング
- 自動バッチ処理
Shaberi3 ベンチマーク結果
注意点
追記時点で、もともと 1 日 1500 回使えていたgemini-2.0-flash-expが、1 日 500 回に制限されていました。
1 日 500 回しか使えないなら、より性能の高いgemini-2.5-flash-preview-04-17で評価した方がより正確な比較ができると判断し、gemini-2.5-flash-preview-04-17で評価することにしました。
結果はこちら。

| Model | Weighted Mean | ELYZA-tasks-100 | Japanese MT-Bench | Tengu-Bench |
|---|---|---|---|---|
| gemini-2.5-flash-preview-04-17 | 9.2 | 9.3 | 9.7 | 8.8 |
| grok-3-mini-beta | 9.0 | 9.3 | 9.7 | 8.5 |
| DeepSeek-R1 | 8.9 | 9.0 | 9.5 | 8.7 |
| gpt-4.1-2025-04-14 | 8.9 | 9.1 | 9.5 | 8.4 |
| ★Qwen3-235B-A22B:UD-Q3_K_XL-think | 8.8 | 8.9 | 9.6 | 8.5 |
| ★qwen3-235b-a22b:free | 8.8 | 9.0 | 9.1 | 8.5 |
| claude-3-7-sonnet-20250219 | 8.7 | 9.1 | 9.5 | 7.9 |
| DeepSeek-V3-0324 | 8.6 | 8.9 | 9.0 | 8.1 |
| ★Qwen3-235B-A22B:UD-Q3_K_XL_no_think | 8.5 | 8.7 | 9.4 | 7.8 |
| ★Qwen3-32B:UD-Q4_K_XL_think | 8.4 | 8.6 | 9.5 | 7.6 |
| DeepSeek-R1-UD-IQ1_S | 8.2 | 8.5 | 8.7 | 7.8 |
| ★Qwen3-30B-A3B:UD-Q4_K_XL-think | 8.0 | 7.6 | 9.3 | 7.6 |
特筆事項
Qwen3-235B-A22B
量子化の影響を確認するために、openrouterのqwen3-235b-a22b:freeとQwen3-235B-A22B:UD-Q3_K_XLの両方を評価しました。
その結果、なんとQwen3-235B-A22B:UD-Q3_K_XLの方がスコアが高いという結果になりました!
この事実化から考えられることとしては下記のとおりでしょうか。
-
unsloth の
UD-Q3_K_XLがほぼ劣化なしで量子化できている -
openrouterのqwen3-235b-a22b:freeが何かしらの量子化(例えばQ4_K_M)を行っている
いずれにせよ、Qwen3-235B-A22B:UD-Q3_K_XL-think がDeepSeek-V3-0324を超えて、DeepSeek-R1-0324に匹敵するスコアを出していることは注目に値します。
Qwen3-235B-A22B:UD-Q3_K_XL と DeepSeek-R1-UD-IQ1_S の比較
1.58bit に量子化したDeepSeek-R1-UD-IQ1_Sでも 128GB 未満の VRAM で動かすことはできませんでしたが、Qwen3-235B-A22B:UD-Q3_K_XL-thinkは 120GB 程度の VRAM 上で動かすことができます。
その上、1.58bit に量子化したDeepSeek-R1よりも高いスコアを出しているので、Qwen3-235B-A22B:UD-Q3_K_XL の性能の高さがうかがえます。
reasoning の影響
Qwen3-235B-A22B:UD-Q3_K_XLにおいても、reasoning ありの方がなしの場合よりも明らかにスコアが高くなっています。
とはいえ、reasoning なしの場合でもQwen3-32B:UD-Q4_K_XL_thinkよりはスコアが高いです。
Qwen3 はかなり長考する印象があるので、VRAM が十分にある場合はQwen3-235B-A22B:UD-Q3_K_XL_no_thinkの方が性能的にも速度的にも良い選択になるかもしれません。
はじめに
どんな人向けの記事?
- 生成 AI の日本語性能に興味のある方
- Qwen3 に興味のある方
Mac Studio(M2 Ultra 128GB)
概要
趣味で LLM の Shaberi3 ベンチマーク評価をしています。
いつもは X の方にポストしているのですが、Qwen3 は盛りだくさんで書ききれないと思ったのでこちらで短めの記事にまとめることにしました。
評価したモデルと条件
特に理由があったわけではないですが、今回は unsloth が公開している下記の gguf モデルを ollama で実行して評価しました。
今回評価したパラメータサイズ・量子化タイプ
- 30B-A3B:UD-Q4_K_XL
- 32B:UD-Q4_K_XL
- 14B:UD-Q4_K_XL
- 8B:UD-Q4_K_XL
- 4B:UD-Q4_K_XL
- 1.7B:UD-Q4_K_XL
- 0.6B:UD-Q4_K_XL
その他特記事項
- 温度:0.6
- reasoning
- reasoning あり(
/think)、なし(/no_think)の両方を評価 - いずれも
<think>...</think>を削除
- reasoning あり(
- 評価者:
gemini-2.0-flash-exp
結果
速度
参考までに、ollama で 389 トークンを入力した際の一度限りの計測値です。単位は [tokens/s] です。
| モデル | prompt eval rate | eval rate |
|---|---|---|
| Qwen3-235B-A22B:UD-Q3_K_XL_think | 56.08 | 16.60 |
| Qwen3-30B-A3B:UD-Q4_K_XL_think | 422.21 | 55.66 |
| Qwen3-32B:UD-Q4_K_XL_think | 188.86 | 20.07 |
| Qwen3-14B:UD-Q4_K_XL_think | 426.52 | 40.91 |
| Qwen3-8B:UD-Q4_K_XL_think | 748.22 | 58.30 |
| Qwen3-4B:UD-Q4_K_XL_think | 1177.05 | 79.79 |
| Qwen3-1.7B:UD-Q4_K_XL_think | 2401.57 | 131.22 |
| Qwen3-0.6B:UD-Q4_K_XL_think | 4267.43 | 171.23 |
Shaberi3 ベンチマーク結果
結果を以下に示します。まず、Qwen3 モデルのみの結果を示します。

| Model | Weighted Mean | ELYZA-tasks-100 | Japanese MT-Bench | Tengu-Bench |
|---|---|---|---|---|
| 32B:UD-Q4_K_XL_think | 8.7 | 9.0 | 9.4 | 8.2 |
| 14B:UD-Q4_K_XL_think | 8.5 | 8.8 | 9.2 | 7.9 |
| 30B-A3B:UD-Q4_K_XL_think | 8.5 | 8.7 | 9.5 | 7.8 |
| 32B:UD-Q4_K_XL【no】_think | 8.4 | 8.6 | 9.5 | 7.8 |
| 8B:UD-Q4_K_XL_think | 8.3 | 8.6 | 9.3 | 7.6 |
| 14B:UD-Q4_K_XL【no】_think | 8.2 | 8.3 | 9.3 | 7.6 |
| 30B-A3B:UD-Q4_K_XL【no】_think | 8.1 | 8.1 | 9.0 | 7.7 |
| 4B:UD-Q4_K_XL_think | 8.0 | 8.2 | 9.0 | 7.3 |
| 8B:UD-Q4_K_XL【no】_think | 8.0 | 8.1 | 9.1 | 7.3 |
| 4B:UD-Q4_K_XL【no】_think | 7.2 | 7.3 | 8.2 | 6.7 |
| 1.7B:UD-Q4_K_XL_think | 7.0 | 6.9 | 8.2 | 6.4 |
| 1.7B:UD-Q4_K_XL【no】_think | 5.9 | 5.8 | 7.0 | 5.5 |
| 0.6B:UD-Q4_K_XL_think | 4.9 | 5.2 | 5.4 | 4.4 |
| 0.6B:UD-Q4_K_XL【no】_think | 4.5 | 4.7 | 4.8 | 4.2 |
次に、他のモデルと比較した結果を示します。

| Model | Weighted Mean | ELYZA-tasks-100 | Japanese MT-Bench | Tengu-Bench |
|---|---|---|---|---|
| DeepSeek-V3-0324 | 8.8 | 9.4 | 9.1 | 8.2 |
| DeepSeek-R1-UD-IQ1_S | 8.7 | 8.9 | 9.4 | 8.3 |
| ★Qwen3-32B:UD-Q4_K_XL_think | 8.7 | 9.0 | 9.4 | 8.2 |
| gpt-4.1-mini-2025-04-14 | 8.7 | 9.1 | 9.3 | 8.1 |
| gemini-2.0-flash-001 | 8.6 | 9.0 | 9.4 | 7.8 |
| ★Qwen3-14B:UD-Q4_K_XL_think | 8.5 | 8.8 | 9.2 | 7.9 |
| ★Qwen3-30B-A3B:UD-Q4_K_XL_think | 8.5 | 8.7 | 9.5 | 7.8 |
| ★Qwen3-32B:UD-Q4_K_XL_no_think | 8.4 | 8.6 | 9.5 | 7.8 |
| gemma-3-27b-it-Q8_0.gguf | 8.4 | 8.9 | 9.2 | 7.6 |
| ★Qwen3-8B:UD-Q4_K_XL_think | 8.3 | 8.6 | 9.3 | 7.6 |
| gpt-4o-mini-2024-07-18 | 8.3 | 8.6 | 9.2 | 7.6 |
| phi4:14b-q4_K_M | 8.3 | 8.5 | 9.0 | 7.7 |
特筆事項
reasoning ありの方がスコアが高い
評価者であるgemini-2.0-flash-expの特徴として、出力トークンが多いとスコアが高くなる傾向があります。
そのため、<think>...</think>を削除することでできるだけフェアな評価をしているのですが、フェアな条件にしてもreasoning ありの方が明らかにスコアが高いことがわかります。
特に 1.7B 以上の Qwen3 モデルは、reasoning による性能向上が大きいという印象です。
Qwen3-32B:UD-Q4_K_XL_think
Qwen3-32B:UD-Q4_K_XL_think を見ると、DeepSeek-V3-0324 と同等の性能を示しています。とはいえ、DeepSeek-V3-0324 は Reasoning なしのモデルなので、あまりフェアな比較ではないかもしれません。
reasoning ありのモデルで言えば、DeepSeek-R1 を 1.58bit 量子化した DeepSeek-R1-UD-IQ1_S と同程度であり、Qwen3-32B の性能の高さがうかがえます。
Qwen3-14B:UD-Q4_K_XL_think、Qwen3-30B-A3B:UD-Q4_K_XL_think
これらはどちらもgemma-3-27bのスコアを上回っており、gemini-2.0-flash-001 よりわずかに性能が低い結果となっています。
| モデル | prompt eval rate | eval rate |
|---|---|---|
| Qwen3-14B:UD-Q4_K_XL_think | 426.52 | 40.91 |
| Qwen3-30B-A3B:UD-Q4_K_XL_think | 422.21 | 55.66 |
速度的にはQwen3-30B-A3Bの方が良さそうです。
Qwen3-8B:UD-Q4_K_XL_think
Qwen3-8B:UD-Q4_K_XL_thinkはgpt-4o-mini-2024-07-18やphi4:14b-q4_K_Mと同等のスコアでした。
reasoning ありなのでフェアな評価ではないですが、gemma-2-9Bよりも大幅に高いスコアになっています。
Qwen3-4B:UD-Q4_K_XL_think
gemma-2-9bやqwen2.5:14bと同程度のスコアです。
Qwen3-1.7B:UD-Q4_K_XL_think、Qwen3-0.6B:UD-Q4_K_XL_think
用途によっては使えるかもしれませんが、特段他のモデルと比べて明らかに性能が高いということはなさそうです。
reasoning なしのモデル全般
qwen-2.5 の同サイズモデルよりは順当に性能が向上しています。
一方、reasoning ありと比べると明らかにスコアが落ちています。
回答速度は reasoning なしの方が速いので、同じモデルを 2 つの用途で使いまわしたいときには有用かもしれません。
まとめ
今回の記事では、Qwen3 の速度、Shaberi3 ベンチマーク結果についてまとめました。
reasoning なしでも、Qwen2.5 のモデルから順当に性能が向上し、reasoning ありにすると更に性能が向上しています。
プロンプトに/think, /no_thinkだけで切り替えられるので、メモリが足りなくて一つのモデルしかロードできない際などには有用です。
最大サイズのQwen3-235B-A22Bは評価に時間がかかりそうなので、完了した時点で追記して X にポストしようと思います。
最後まで読んでいただきありがとうございました。次回もぜひよろしくお願いします。
Discussion