Qwen2.5-Max公式ブログ日本語まとめ
本記事は以下の公式ブログを参考にしています。
Qwen2.5-Max: 大規模MoEモデルの知能を探る
大規模言語モデルの性能向上には、データサイズとモデルサイズのスケール拡大が重要であることが広く認識されています。しかし、密集型モデルやMixture-of-Expert(MoE)モデルを極限までスケールすることに関する研究や産業界の経験はまだ限られています。このスケールに関する重要な詳細は、最近発表されたDeepSeek V3で初めて明らかにされました。
この中で私たちは、Qwen2.5-Maxという大規模MoEモデルを開発しています。本モデルは20兆以上のトークンで事前学習を行い、さらに厳選された**教師ありファインチューニング(SFT)および人間のフィードバックによる強化学習(RLHF)**を施しました。本日、Qwen2.5-Maxの性能を発表するとともに、Alibaba Cloudを通じたAPI提供を開始したことをお知らせします。また、Qwen Chat上でもQwen2.5-Maxを体験できます。
性能評価
Qwen2.5-Maxは、商用モデルとオープンウェイトモデルの両方と比較し、以下の主要なベンチマークで評価しました。
- MMLU-Pro(大学レベルの知識を測定)
- LiveCodeBench(コーディング能力の評価)
- LiveBench(一般的な性能評価)
- Arena-Hard(人間の好みを近似)
Qwen2.5-Maxの性能は、DeepSeek V3を上回る結果を示しており、特にArena-Hard、LiveBench、LiveCodeBench、GPQA-Diamondなどで優れた成績を収めています。
さらに、MMLU-Proを含む他の評価でも競争力のある結果を示しました。
ベースモデルの比較
プロプライエタリモデル(GPT-4o、Claude-3.5-Sonnetなど)との比較はできないため、以下のオープンウェイトモデルと比較しました。
- DeepSeek V3(主要なオープンウェイトMoEモデル)
- Llama-3.1-405B(最大のオープンウェイト密集型モデル)
- Qwen2.5-72B(トップクラスのオープンウェイト密集型モデル)
Qwen2.5-Maxのベースモデルは、ほとんどのベンチマークで優位性を示しており、今後のポストトレーニング技術の進化によりさらなる性能向上が期待できます。
Qwen2.5-Maxを利用する
現在、Qwen ChatでQwen2.5-Maxが利用可能です。
モデルとのチャットだけでなく、アーティファクトの作成や検索機能も試すことができます。
また、API(モデル名: qwen-max-2025-01-25
)も提供されており、以下の手順で利用できます。
- Alibaba Cloudのアカウント登録
- Alibaba Cloud Model Studioを有効化
- コンソールでAPIキーを作成
QwenのAPIはOpenAI API互換のため、OpenAI APIの使用方法に準拠して利用できます。
以下は、PythonでQwen2.5-Maxを使用するコード例です。
from openai import OpenAI
import os
client = OpenAI(
api_key=os.getenv("API_KEY"),
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
model="qwen-max-2025-01-25",
messages=[
{'role': 'system', 'content': 'You are a helpful assistant.'},
{'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
]
)
print(completion.choices[0].message)
Discussion