🚀

Qwen2.5-Max公式ブログ日本語まとめ

2025/01/29に公開

本記事は以下の公式ブログを参考にしています。
https://qwenlm.github.io/blog/qwen2.5-max/

Qwen2.5-Max: 大規模MoEモデルの知能を探る

大規模言語モデルの性能向上には、データサイズとモデルサイズのスケール拡大が重要であることが広く認識されています。しかし、密集型モデルやMixture-of-Expert(MoE)モデルを極限までスケールすることに関する研究や産業界の経験はまだ限られています。このスケールに関する重要な詳細は、最近発表されたDeepSeek V3で初めて明らかにされました。

この中で私たちは、Qwen2.5-Maxという大規模MoEモデルを開発しています。本モデルは20兆以上のトークンで事前学習を行い、さらに厳選された**教師ありファインチューニング(SFT)および人間のフィードバックによる強化学習(RLHF)**を施しました。本日、Qwen2.5-Maxの性能を発表するとともに、Alibaba Cloudを通じたAPI提供を開始したことをお知らせします。また、Qwen Chat上でもQwen2.5-Maxを体験できます。


性能評価

Qwen2.5-Maxは、商用モデルとオープンウェイトモデルの両方と比較し、以下の主要なベンチマークで評価しました。

  • MMLU-Pro(大学レベルの知識を測定)
  • LiveCodeBench(コーディング能力の評価)
  • LiveBench(一般的な性能評価)
  • Arena-Hard(人間の好みを近似)

Qwen2.5-Maxの性能は、DeepSeek V3を上回る結果を示しており、特にArena-Hard、LiveBench、LiveCodeBench、GPQA-Diamondなどで優れた成績を収めています。
さらに、MMLU-Proを含む他の評価でも競争力のある結果を示しました。

ベースモデルの比較

プロプライエタリモデル(GPT-4o、Claude-3.5-Sonnetなど)との比較はできないため、以下のオープンウェイトモデルと比較しました。

  • DeepSeek V3(主要なオープンウェイトMoEモデル)
  • Llama-3.1-405B(最大のオープンウェイト密集型モデル)
  • Qwen2.5-72B(トップクラスのオープンウェイト密集型モデル)

Qwen2.5-Maxのベースモデルは、ほとんどのベンチマークで優位性を示しており、今後のポストトレーニング技術の進化によりさらなる性能向上が期待できます。


Qwen2.5-Maxを利用する

現在、Qwen ChatでQwen2.5-Maxが利用可能です。
モデルとのチャットだけでなく、アーティファクトの作成や検索機能も試すことができます。

また、API(モデル名: qwen-max-2025-01-25)も提供されており、以下の手順で利用できます。

  1. Alibaba Cloudのアカウント登録
  2. Alibaba Cloud Model Studioを有効化
  3. コンソールでAPIキーを作成

QwenのAPIはOpenAI API互換のため、OpenAI APIの使用方法に準拠して利用できます。
以下は、PythonでQwen2.5-Maxを使用するコード例です。

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen-max-2025-01-25",
    messages=[
      {'role': 'system', 'content': 'You are a helpful assistant.'},
      {'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
    ]
)

print(completion.choices[0].message)

Discussion