😸

Qwen3-235B-A22B-Instruct-2507：モデル紹介、ベンチマーク比較、コミュニティ評価

2025/07/22に公開

 紹介Qwen3-235B-A22B-Instruct-2507 は、Alibaba の Qwen チームが2025年7月に公開したフラッグシップ Mixture-of-Experts（MoE）大規模言語モデルです。総パラメータ数は2350億（推論ごとに22Bがアクティブ）、命令追従、論理推論、数学、科学、プログラミング、ツール使用、多言語理解などで卓越した性能を発揮します。ネイティブで256K（262,144）トークンのコンテキストウィンドウをサポートし、長文や複雑なタスクにも最適です。
主な特徴：
命令追従・推論・理解・数学・科学・プログラミング・ツール利用において高性能
多言語のロングテール知識カバレッジが大幅に向上
主観的・オープンエンドタスクでユーザー嗜好への適合性を強化
non-thinking mode のみ対応（<think></think> ブロックは生成しません）

 ベンチマーク比較

Benchmark
Deepseek-V3
GPT-4o
Claude Opus 4
Kimi K2
Qwen3-235B-A22B
Qwen3-235B-A22B-Instruct-2507


MMLU-Pro
81.2
79.8
86.6
81.1
75.2
83.0

MMLU-Redux
90.4
91.3
94.2
92.7
89.2
93.1

GPQA
68.4
66.9
74.9
75.1
62.9
77.5

SuperGPQA
57.3
51.0
56.5
57.2
48.2
62.6

SimpleQA
27.2
40.3
22.8
31.0
12.2
54.3

CSimpleQA
71.1
60.2
68.0
74.5
60.8
84.3

AIME25（推論）
46.6
26.7
33.9
49.5
24.7
70.3

LiveCodeBench v6
45.2
35.8
44.6
48.9
32.9
51.8

Arena-Hard v2
45.6
61.9
51.5
66.1
52.0
79.2

WritingBench
74.5
75.5
79.2
86.2
77.0
85.2

Qwen3-235B-A22B-Instruct-2507 は、前世代モデルよりも多くのベンチマークで大幅な向上を示し、特に推論・コーディング・多言語タスクで GPT-4o、Claude Opus 4、Kimi K2 などのトップモデルと同等またはそれ以上の性能を発揮しています。

 コミュニティ・SNSでの評価Reddit r/LocalLLaMA：
improved non-thinking mode や全体的な品質向上に対して高い評価。Chain-of-thought（CoT）推論を好まないユーザーにも最適。
ローカル環境での動作はやや遅いという声もあるが、Q4_K_XL、dwq などの量子化バージョンで使いやすさが向上。
256Kフルコンテキスト対応やコーディング・推論ベンチマークの強さが称賛されている。
コミュニティ全体の評価は非常に高く、QwenシリーズはオープンソースLLMの中でもトップクラスとされている。
SNS（X/Twitter）：
「Kimi-K2、DeepSeek-V3、Claude-Opus4を超えた」と評され、長文処理や多言語カバレッジの進化が話題。
主観的・オープンエンドタスクでのユーザー適合性や総合性能も注目されている。

 試用リンクQwen3-235B-A22B-Instruct-2507 を無料で試せます：

https://qwq32.com/free-models/qwen-qwen3-235b-a22b-07-25-free

 参考資料Hugging Face Model Card
LM Studio Model Page
Reddit コミュニティディスカッション
OpenRouter Model Info
Qwen3-235B-A22B-Instruct-2507 は、巨大なコンテキストウィンドウ、卓越した多言語・推論能力、活発なオープンソースコミュニティのサポートにより、次世代オープンソースLLMの新たな基準を打ち立てています。

Benchmark	Deepseek-V3	GPT-4o	Claude Opus 4	Kimi K2	Qwen3-235B-A22B	Qwen3-235B-A22B-Instruct-2507
MMLU-Pro	81.2	79.8	86.6	81.1	75.2	83.0
MMLU-Redux	90.4	91.3	94.2	92.7	89.2	93.1
GPQA	68.4	66.9	74.9	75.1	62.9	77.5
SuperGPQA	57.3	51.0	56.5	57.2	48.2	62.6
SimpleQA	27.2	40.3	22.8	31.0	12.2	54.3
CSimpleQA	71.1	60.2	68.0	74.5	60.8	84.3
AIME25（推論）	46.6	26.7	33.9	49.5	24.7	70.3
LiveCodeBench v6	45.2	35.8	44.6	48.9	32.9	51.8
Arena-Hard v2	45.6	61.9	51.5	66.1	52.0	79.2
WritingBench	74.5	75.5	79.2	86.2	77.0	85.2

紹介

ベンチマーク比較

コミュニティ・SNSでの評価

試用リンク

参考資料

Discussion