😸
Qwen3-235B-A22B-Instruct-2507:モデル紹介、ベンチマーク比較、コミュニティ評価
紹介
Qwen3-235B-A22B-Instruct-2507 は、Alibaba の Qwen チームが2025年7月に公開したフラッグシップ Mixture-of-Experts(MoE)大規模言語モデルです。総パラメータ数は2350億(推論ごとに22Bがアクティブ)、命令追従、論理推論、数学、科学、プログラミング、ツール使用、多言語理解などで卓越した性能を発揮します。ネイティブで256K(262,144)トークンのコンテキストウィンドウをサポートし、長文や複雑なタスクにも最適です。
主な特徴:
- 命令追従・推論・理解・数学・科学・プログラミング・ツール利用において高性能
- 多言語のロングテール知識カバレッジが大幅に向上
- 主観的・オープンエンドタスクでユーザー嗜好への適合性を強化
- non-thinking mode のみ対応(
<think></think>
ブロックは生成しません)
ベンチマーク比較
Benchmark | Deepseek-V3 | GPT-4o | Claude Opus 4 | Kimi K2 | Qwen3-235B-A22B | Qwen3-235B-A22B-Instruct-2507 |
---|---|---|---|---|---|---|
MMLU-Pro | 81.2 | 79.8 | 86.6 | 81.1 | 75.2 | 83.0 |
MMLU-Redux | 90.4 | 91.3 | 94.2 | 92.7 | 89.2 | 93.1 |
GPQA | 68.4 | 66.9 | 74.9 | 75.1 | 62.9 | 77.5 |
SuperGPQA | 57.3 | 51.0 | 56.5 | 57.2 | 48.2 | 62.6 |
SimpleQA | 27.2 | 40.3 | 22.8 | 31.0 | 12.2 | 54.3 |
CSimpleQA | 71.1 | 60.2 | 68.0 | 74.5 | 60.8 | 84.3 |
AIME25(推論) | 46.6 | 26.7 | 33.9 | 49.5 | 24.7 | 70.3 |
LiveCodeBench v6 | 45.2 | 35.8 | 44.6 | 48.9 | 32.9 | 51.8 |
Arena-Hard v2 | 45.6 | 61.9 | 51.5 | 66.1 | 52.0 | 79.2 |
WritingBench | 74.5 | 75.5 | 79.2 | 86.2 | 77.0 | 85.2 |
Qwen3-235B-A22B-Instruct-2507 は、前世代モデルよりも多くのベンチマークで大幅な向上を示し、特に推論・コーディング・多言語タスクで GPT-4o、Claude Opus 4、Kimi K2 などのトップモデルと同等またはそれ以上の性能を発揮しています。
コミュニティ・SNSでの評価
-
Reddit r/LocalLLaMA:
- improved non-thinking mode や全体的な品質向上に対して高い評価。Chain-of-thought(CoT)推論を好まないユーザーにも最適。
- ローカル環境での動作はやや遅いという声もあるが、Q4_K_XL、dwq などの量子化バージョンで使いやすさが向上。
- 256Kフルコンテキスト対応やコーディング・推論ベンチマークの強さが称賛されている。
- コミュニティ全体の評価は非常に高く、QwenシリーズはオープンソースLLMの中でもトップクラスとされている。
-
SNS(X/Twitter):
- 「Kimi-K2、DeepSeek-V3、Claude-Opus4を超えた」と評され、長文処理や多言語カバレッジの進化が話題。
- 主観的・オープンエンドタスクでのユーザー適合性や総合性能も注目されている。
試用リンク
Qwen3-235B-A22B-Instruct-2507 を無料で試せます:
https://qwq32.com/free-models/qwen-qwen3-235b-a22b-07-25-free
参考資料
Qwen3-235B-A22B-Instruct-2507 は、巨大なコンテキストウィンドウ、卓越した多言語・推論能力、活発なオープンソースコミュニティのサポートにより、次世代オープンソースLLMの新たな基準を打ち立てています。
Discussion