📊

Qwen3の速度とShaberi3ベンチマーク結果

に公開

2025-05-03 追記

Qwen3-235B-A22B の Shaberi3 ベンチマーク結果を実施したため、ここに追記します。

推論速度

速度の項Qwen3-235B-A22Bの推論速度 [tokens/s] も追記しました。

モデル prompt eval rate eval rate
Qwen3-235B-A22B:UD-Q3_K_XL_think 56.08 16.60

eval rate はそこそこ速いですが、prompt eval rate が遅いのが気になります。

例えばコーディングエージェントとして使うときには、数千トークンの入力は当たり前なのでプロンプトを入力してから生成が開始されるまでにかなり待たされることは必至です。

とはいえ、下記のような用途では有用そうです。

  • 1 ターンの処理
  • Auto approve でのコーディング
  • 自動バッチ処理

Shaberi3 ベンチマーク結果

注意点

追記時点で、もともと 1 日 1500 回使えていたgemini-2.0-flash-expが、1 日 500 回に制限されていました。

https://x.com/gosrum/status/1918471127351099826

1 日 500 回しか使えないなら、より性能の高いgemini-2.5-flash-preview-04-17で評価した方がより正確な比較ができると判断し、gemini-2.5-flash-preview-04-17で評価することにしました。

結果はこちら。

Model Weighted Mean ELYZA-tasks-100 Japanese MT-Bench Tengu-Bench
gemini-2.5-flash-preview-04-17 9.2 9.3 9.7 8.8
grok-3-mini-beta 9.0 9.3 9.7 8.5
DeepSeek-R1 8.9 9.0 9.5 8.7
gpt-4.1-2025-04-14 8.9 9.1 9.5 8.4
★Qwen3-235B-A22B:UD-Q3_K_XL-think 8.8 8.9 9.6 8.5
★qwen3-235b-a22b:free 8.8 9.0 9.1 8.5
claude-3-7-sonnet-20250219 8.7 9.1 9.5 7.9
DeepSeek-V3-0324 8.6 8.9 9.0 8.1
★Qwen3-235B-A22B:UD-Q3_K_XL_no_think 8.5 8.7 9.4 7.8
★Qwen3-32B:UD-Q4_K_XL_think 8.4 8.6 9.5 7.6
DeepSeek-R1-UD-IQ1_S 8.2 8.5 8.7 7.8
★Qwen3-30B-A3B:UD-Q4_K_XL-think 8.0 7.6 9.3 7.6

特筆事項

Qwen3-235B-A22B

量子化の影響を確認するために、openrouterのqwen3-235b-a22b:freeQwen3-235B-A22B:UD-Q3_K_XLの両方を評価しました。

その結果、なんとQwen3-235B-A22B:UD-Q3_K_XLの方がスコアが高いという結果になりました!

この事実化から考えられることとしては下記のとおりでしょうか。

  • unsloth のUD-Q3_K_XLがほぼ劣化なしで量子化できている

  • openrouterのqwen3-235b-a22b:freeが何かしらの量子化(例えばQ4_K_M)を行っている

いずれにせよ、Qwen3-235B-A22B:UD-Q3_K_XL-think がDeepSeek-V3-0324を超えて、DeepSeek-R1-0324に匹敵するスコアを出していることは注目に値します。

Qwen3-235B-A22B:UD-Q3_K_XL と DeepSeek-R1-UD-IQ1_S の比較

1.58bit に量子化したDeepSeek-R1-UD-IQ1_Sでも 128GB 未満の VRAM で動かすことはできませんでしたが、Qwen3-235B-A22B:UD-Q3_K_XL-thinkは 120GB 程度の VRAM 上で動かすことができます。

その上、1.58bit に量子化したDeepSeek-R1よりも高いスコアを出しているので、Qwen3-235B-A22B:UD-Q3_K_XL の性能の高さがうかがえます。

reasoning の影響

Qwen3-235B-A22B:UD-Q3_K_XLにおいても、reasoning ありの方がなしの場合よりも明らかにスコアが高くなっています。

とはいえ、reasoning なしの場合でもQwen3-32B:UD-Q4_K_XL_thinkよりはスコアが高いです。

Qwen3 はかなり長考する印象があるので、VRAM が十分にある場合はQwen3-235B-A22B:UD-Q3_K_XL_no_thinkの方が性能的にも速度的にも良い選択になるかもしれません。


はじめに

どんな人向けの記事?

  • 生成 AI の日本語性能に興味のある方
  • Qwen3 に興味のある方
環境
Mac Studio(M2 Ultra 128GB)

概要

趣味で LLM の Shaberi3 ベンチマーク評価をしています。

いつもは X の方にポストしているのですが、Qwen3 は盛りだくさんで書ききれないと思ったのでこちらで短めの記事にまとめることにしました。

評価したモデルと条件

特に理由があったわけではないですが、今回は unsloth が公開している下記の gguf モデルを ollama で実行して評価しました。

https://huggingface.co/collections/unsloth/qwen3-680edabfb790c8c34a242f95

今回評価したパラメータサイズ・量子化タイプ

  • 30B-A3B:UD-Q4_K_XL
  • 32B:UD-Q4_K_XL
  • 14B:UD-Q4_K_XL
  • 8B:UD-Q4_K_XL
  • 4B:UD-Q4_K_XL
  • 1.7B:UD-Q4_K_XL
  • 0.6B:UD-Q4_K_XL

その他特記事項

  • 温度:0.6
  • reasoning
    • reasoning あり(/think)、なし(/no_think)の両方を評価
    • いずれも<think>...</think>を削除
  • 評価者:gemini-2.0-flash-exp

結果

速度

参考までに、ollama で 389 トークンを入力した際の一度限りの計測値です。単位は [tokens/s] です。

モデル prompt eval rate eval rate
Qwen3-235B-A22B:UD-Q3_K_XL_think 56.08 16.60
Qwen3-30B-A3B:UD-Q4_K_XL_think 422.21 55.66
Qwen3-32B:UD-Q4_K_XL_think 188.86 20.07
Qwen3-14B:UD-Q4_K_XL_think 426.52 40.91
Qwen3-8B:UD-Q4_K_XL_think 748.22 58.30
Qwen3-4B:UD-Q4_K_XL_think 1177.05 79.79
Qwen3-1.7B:UD-Q4_K_XL_think 2401.57 131.22
Qwen3-0.6B:UD-Q4_K_XL_think 4267.43 171.23

Shaberi3 ベンチマーク結果

結果を以下に示します。まず、Qwen3 モデルのみの結果を示します。

Model Weighted Mean ELYZA-tasks-100 Japanese MT-Bench Tengu-Bench
32B:UD-Q4_K_XL_think 8.7 9.0 9.4 8.2
14B:UD-Q4_K_XL_think 8.5 8.8 9.2 7.9
30B-A3B:UD-Q4_K_XL_think 8.5 8.7 9.5 7.8
32B:UD-Q4_K_XL【no】_think 8.4 8.6 9.5 7.8
8B:UD-Q4_K_XL_think 8.3 8.6 9.3 7.6
14B:UD-Q4_K_XL【no】_think 8.2 8.3 9.3 7.6
30B-A3B:UD-Q4_K_XL【no】_think 8.1 8.1 9.0 7.7
4B:UD-Q4_K_XL_think 8.0 8.2 9.0 7.3
8B:UD-Q4_K_XL【no】_think 8.0 8.1 9.1 7.3
4B:UD-Q4_K_XL【no】_think 7.2 7.3 8.2 6.7
1.7B:UD-Q4_K_XL_think 7.0 6.9 8.2 6.4
1.7B:UD-Q4_K_XL【no】_think 5.9 5.8 7.0 5.5
0.6B:UD-Q4_K_XL_think 4.9 5.2 5.4 4.4
0.6B:UD-Q4_K_XL【no】_think 4.5 4.7 4.8 4.2

次に、他のモデルと比較した結果を示します。

Model Weighted Mean ELYZA-tasks-100 Japanese MT-Bench Tengu-Bench
DeepSeek-V3-0324 8.8 9.4 9.1 8.2
DeepSeek-R1-UD-IQ1_S 8.7 8.9 9.4 8.3
★Qwen3-32B:UD-Q4_K_XL_think 8.7 9.0 9.4 8.2
gpt-4.1-mini-2025-04-14 8.7 9.1 9.3 8.1
gemini-2.0-flash-001 8.6 9.0 9.4 7.8
★Qwen3-14B:UD-Q4_K_XL_think 8.5 8.8 9.2 7.9
★Qwen3-30B-A3B:UD-Q4_K_XL_think 8.5 8.7 9.5 7.8
★Qwen3-32B:UD-Q4_K_XL_no_think 8.4 8.6 9.5 7.8
gemma-3-27b-it-Q8_0.gguf 8.4 8.9 9.2 7.6
★Qwen3-8B:UD-Q4_K_XL_think 8.3 8.6 9.3 7.6
gpt-4o-mini-2024-07-18 8.3 8.6 9.2 7.6
phi4:14b-q4_K_M 8.3 8.5 9.0 7.7

特筆事項

reasoning ありの方がスコアが高い

評価者であるgemini-2.0-flash-expの特徴として、出力トークンが多いとスコアが高くなる傾向があります。

そのため、<think>...</think>を削除することでできるだけフェアな評価をしているのですが、フェアな条件にしてもreasoning ありの方が明らかにスコアが高いことがわかります。

特に 1.7B 以上の Qwen3 モデルは、reasoning による性能向上が大きいという印象です。

Qwen3-32B:UD-Q4_K_XL_think

Qwen3-32B:UD-Q4_K_XL_think を見ると、DeepSeek-V3-0324 と同等の性能を示しています。とはいえ、DeepSeek-V3-0324 は Reasoning なしのモデルなので、あまりフェアな比較ではないかもしれません。

reasoning ありのモデルで言えば、DeepSeek-R1 を 1.58bit 量子化した DeepSeek-R1-UD-IQ1_S と同程度であり、Qwen3-32B の性能の高さがうかがえます。

Qwen3-14B:UD-Q4_K_XL_think、Qwen3-30B-A3B:UD-Q4_K_XL_think

これらはどちらもgemma-3-27bのスコアを上回っており、gemini-2.0-flash-001 よりわずかに性能が低い結果となっています。

モデル prompt eval rate eval rate
Qwen3-14B:UD-Q4_K_XL_think 426.52 40.91
Qwen3-30B-A3B:UD-Q4_K_XL_think 422.21 55.66

速度的にはQwen3-30B-A3Bの方が良さそうです。

Qwen3-8B:UD-Q4_K_XL_think

Qwen3-8B:UD-Q4_K_XL_thinkgpt-4o-mini-2024-07-18phi4:14b-q4_K_Mと同等のスコアでした。
reasoning ありなのでフェアな評価ではないですが、gemma-2-9Bよりも大幅に高いスコアになっています。

Qwen3-4B:UD-Q4_K_XL_think

gemma-2-9bqwen2.5:14bと同程度のスコアです。

Qwen3-1.7B:UD-Q4_K_XL_think、Qwen3-0.6B:UD-Q4_K_XL_think

用途によっては使えるかもしれませんが、特段他のモデルと比べて明らかに性能が高いということはなさそうです。

reasoning なしのモデル全般

qwen-2.5 の同サイズモデルよりは順当に性能が向上しています。

一方、reasoning ありと比べると明らかにスコアが落ちています。

回答速度は reasoning なしの方が速いので、同じモデルを 2 つの用途で使いまわしたいときには有用かもしれません。

まとめ

今回の記事では、Qwen3 の速度、Shaberi3 ベンチマーク結果についてまとめました。

reasoning なしでも、Qwen2.5 のモデルから順当に性能が向上し、reasoning ありにすると更に性能が向上しています。

プロンプトに/think, /no_thinkだけで切り替えられるので、メモリが足りなくて一つのモデルしかロードできない際などには有用です。

最大サイズのQwen3-235B-A22Bは評価に時間がかかりそうなので、完了した時点で追記して X にポストしようと思います。

最後まで読んでいただきありがとうございました。次回もぜひよろしくお願いします。

Discussion