😸

Qwen3-235B-A22B-Instruct-2507:モデル紹介、ベンチマーク比較、コミュニティ評価

に公開

Qwen3-235B-A22B-Instruct-2507

紹介

Qwen3-235B-A22B-Instruct-2507 は、Alibaba の Qwen チームが2025年7月に公開したフラッグシップ Mixture-of-Experts(MoE)大規模言語モデルです。総パラメータ数は2350億(推論ごとに22Bがアクティブ)、命令追従、論理推論、数学、科学、プログラミング、ツール使用、多言語理解などで卓越した性能を発揮します。ネイティブで256K(262,144)トークンのコンテキストウィンドウをサポートし、長文や複雑なタスクにも最適です。

主な特徴:

  • 命令追従・推論・理解・数学・科学・プログラミング・ツール利用において高性能
  • 多言語のロングテール知識カバレッジが大幅に向上
  • 主観的・オープンエンドタスクでユーザー嗜好への適合性を強化
  • non-thinking mode のみ対応(<think></think> ブロックは生成しません)

ベンチマーク比較

Benchmark Deepseek-V3 GPT-4o Claude Opus 4 Kimi K2 Qwen3-235B-A22B Qwen3-235B-A22B-Instruct-2507
MMLU-Pro 81.2 79.8 86.6 81.1 75.2 83.0
MMLU-Redux 90.4 91.3 94.2 92.7 89.2 93.1
GPQA 68.4 66.9 74.9 75.1 62.9 77.5
SuperGPQA 57.3 51.0 56.5 57.2 48.2 62.6
SimpleQA 27.2 40.3 22.8 31.0 12.2 54.3
CSimpleQA 71.1 60.2 68.0 74.5 60.8 84.3
AIME25(推論) 46.6 26.7 33.9 49.5 24.7 70.3
LiveCodeBench v6 45.2 35.8 44.6 48.9 32.9 51.8
Arena-Hard v2 45.6 61.9 51.5 66.1 52.0 79.2
WritingBench 74.5 75.5 79.2 86.2 77.0 85.2

Qwen3-235B-A22B-Instruct-2507 は、前世代モデルよりも多くのベンチマークで大幅な向上を示し、特に推論・コーディング・多言語タスクで GPT-4o、Claude Opus 4、Kimi K2 などのトップモデルと同等またはそれ以上の性能を発揮しています。

コミュニティ・SNSでの評価

  • Reddit r/LocalLLaMA:

    • improved non-thinking mode や全体的な品質向上に対して高い評価。Chain-of-thought(CoT)推論を好まないユーザーにも最適。
    • ローカル環境での動作はやや遅いという声もあるが、Q4_K_XL、dwq などの量子化バージョンで使いやすさが向上。
    • 256Kフルコンテキスト対応やコーディング・推論ベンチマークの強さが称賛されている。
    • コミュニティ全体の評価は非常に高く、QwenシリーズはオープンソースLLMの中でもトップクラスとされている。
  • SNS(X/Twitter):

    • 「Kimi-K2、DeepSeek-V3、Claude-Opus4を超えた」と評され、長文処理や多言語カバレッジの進化が話題。
    • 主観的・オープンエンドタスクでのユーザー適合性や総合性能も注目されている。

試用リンク

Qwen3-235B-A22B-Instruct-2507 を無料で試せます:
https://qwq32.com/free-models/qwen-qwen3-235b-a22b-07-25-free

参考資料


Qwen3-235B-A22B-Instruct-2507 は、巨大なコンテキストウィンドウ、卓越した多言語・推論能力、活発なオープンソースコミュニティのサポートにより、次世代オープンソースLLMの新たな基準を打ち立てています。

Discussion