Qwen 3:思考と速度を兼ね備えた新世代大規模言語モデル
Qwen 3が新登場!アリババクラウドインテリジェンスが、Qwen(通義千問)シリーズの最新世代大規模言語モデル—Qwen 3をリリースしました。今回は多くの技術的ブレークスルーと革新的な能力が搭載されています。Qwen 3チームは大規模MoEモデルから複数の高密度モデルまで、完全な製品ラインを提供し、モデルの性能を全面的に向上させました。
技術的ハイライトと革新
デュアル思考モード:深い思考と迅速な回答の両立
Qwen 3の最大の革新の一つは、二重の思考モードの導入です。複雑な問題を解決する必要がある場合、モデルは「思考モード」を有効にして段階的な推論で答えを導き出せます。一方、単純な問題に対しては「非思考モード」を使用して即座に回答することが可能です。この設計により、ユーザーはタスクの複雑さと時間の要件に応じて、モデルの「思考予算」を柔軟に制御し、推論の質と応答速度の間で最適なバランスを取ることができます。さらに、ユーザーは複数ターンの対話中に「/think」と「/no_think」の指示を使って動的に思考モードを切り替えることもできます。
強力な多言語能力
Qwen 3は119の言語と方言をサポートしており、インド・ヨーロッパ語族から漢チベット語族、アフロアジア語族など複数の語族にわたる多数の言語をカバーしています。この広範な言語カバレッジにより、Qwen 3は世界中のより多くのユーザーにサービスを提供し、多様な言語タスクを処理することができます。
強化されたAgent能力
Qwen 3は、ツール呼び出しと環境対話能力を大幅に強化し、コード生成と実行能力を最適化し、MCP(マルチチャネルプロセッサ)のサポートを強化しました。これらの改善により、モデルはインテリジェントアシスタントとしてより効果的に機能し、複雑なタスクを実行できるようになりました。
モデルシリーズの全面的アップグレード
今回リリースされたQwen 3モデルシリーズには以下が含まれます:
- Qwen 3-235B-A22B:2350億以上の総パラメータと220億のアクティブパラメータを持つフラッグシップMoEモデル
- Qwen 3-30B-A3B:約300億の総パラメータと30億のアクティブパラメータを持つ小型MoEモデル
- 6つの高密度モデル:0.6Bから32Bまでさまざまなシナリオのニーズを満たす
特筆すべきは、Qwen 3シリーズモデルがパラメータ効率で顕著な進歩を遂げたことです。Qwen 3-1.7B/4B/8B/14B/32B-BaseはそれぞれQwen 2.5-3B/7B/14B/32B/72B-Baseと同等のパフォーマンスを示し、MoEモデルはわずか10%のアクティブパラメータでQwen 2.5高密度モデルと同様のパフォーマンスを達成しています。
トップモデルとの競争力比較
Qwen 3-235B-A22Bは、コード、数学、一般能力などのベンチマークテストにおいて、DeepSeek-R1、o1、o3-mini、Grok-3、Gemini-2.5-Proなどのトップモデルと同等かそれ以上のパフォーマンスを示しています。
特に注目すべきは、小型MoEモデルのQwen 3-30B-A3Bがアクティブパラメータ数でQwQ-32Bのわずか10%でありながら、より優れたパフォーマンスを発揮していることです。さらに小さなQwen 3-4BがQwen 2.5-72B-Instructの性能に匹敵するという事実は、Qwen 3のモデル効率における大きな進歩を如実に示しています。
ブレークスルーの背後にある技術
事前学習規模の倍増
Qwen 3の事前学習データセットはQwen 2.5と比較してほぼ倍増し、18兆トークンから約36兆トークンに拡大しました。チームはウェブからデータを収集するだけでなく、Qwen 2.5-VLを使用してPDF文書からテキストを抽出し、Qwen 2.5-MathとQwen 2.5-Coderを使用して高品質の数学とコードデータを合成しました。
3段階の事前学習戦略
事前学習プロセスは慎重に設計された3つの段階に分かれています:
- 第1段階:30兆以上のトークンに対して4Kコンテキスト長で基本的な事前学習を実施
- 第2段階:STEM、プログラミング、推論タスクなどの知識集約型データの割合を増やし、さらに5兆トークンを学習
- 第3段階:高品質な長文コンテキストデータを使用してコンテキスト長を32Kまで拡張
4段階の事後学習プロセス
思考推論と迅速な応答能力を兼ね備えたハイブリッドモデルを構築するために、Qwen 3チームは革新的な4段階のトレーニングプロセスを実施しました:
- 長い思考連鎖の冷間始動:多様な思考連鎖データによる基本的な微調整
- 長い思考連鎖の強化学習:ルールベースの報酬を活用して探索能力を強化
- 思考モードの融合:思考モードと非思考モードの統合
- 一般的な強化学習:20以上の一般領域タスクで強化学習を適用
オープンソースと簡便な展開
Qwen 3のすべてのモデルはApache 2.0ライセンスの下でオープンソース化され、Hugging Face、ModelScope、Kaggleなどのプラットフォームで入手可能です。ユーザーは様々なフレームワークを通じてこれらのモデルを展開・使用できます:
- 展開にはSGLangやvLLMなどのフレームワークを推奨
- ローカル使用にはOllama、LMStudio、MLX、llama.cpp、KTransformersなどのツールを選択可能
数行のコードでQwen 3モデルに接続し、その強力な思考能力と迅速な応答を享受できます:
from modelscope import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-30B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
将来の展望
Qwen 3は汎用人工知能(AGI)と超人工知能(ASI)への道程における重要なマイルストーンを代表しています。事前学習と強化学習の規模を拡大することで、Qwen 3チームはより高いレベルの知能を実現しました。今後、彼らは多次元からモデルをさらに強化する計画であり、アーキテクチャの最適化、データ規模の拡大、モデルサイズの増加、コンテキスト長の延長、モダリティの拡張、環境フィードバックを活用した強化学習の促進などが含まれます。
Qwen 3チームは、人工知能がモデルトレーニングに焦点を当てた時代からAgentトレーニングを中心とした時代へと移行していると考えており、次世代のイテレーションでもこのフロンティア分野の発展をリードし続ける予定です。
この画期的な大規模言語モデルを体験したい方は、Qwen 3にアクセスして、思考と速度が共存するインテリジェントな体験を直接感じてみてください。
Discussion