🤖
Qwen2.5: 技術レポート日本語まとめ
Qwen2.5: 最新の大規模言語モデル
著者: Qwenチーム
日付: 2024年12月
論文: https://arxiv.org/pdf/2412.15115
はじめに
人工汎用知能(AGI)の兆しは、大規模言語モデル(LLM)の急速な進展によってますます明確になっています。この基盤に基づき、Qwen2.5はモデルサイズ、データ品質、使いやすさにおいて大幅な進化を遂げました。本ブログでは、Qwen2.5の主な特徴、アーキテクチャ、性能評価について紹介します。
主な特徴
1. 強化されたモデルサイズ
Qwen2.5は多様なモデルサイズをサポートします。
- OSSモデル: 0.5B、1.5B、3B、7B、14B、32B、72Bパラメータ。
- 商用モデル: Qwen2.5-TurboとQwen2.5-Plus。
これらのモデルは、さまざまなユースケースに合わせてコスト効率が高くスケーラブルなソリューションを提供します。
2. データ品質の向上
- 事前学習データ: トークン数が7兆から18兆に拡大し、コーディング、数学、ドメイン知識に重点を置いています。
- 事後学習データ: 構造化データ、推論、多言語対応の分野で100万以上の高品質なサンプルを使用。
3. 使いやすさの向上
- 生成長が拡張: 最大8,192トークン(Qwen2.5-Turboでは最大100万トークン)。
- 構造化入力/出力(JSONやテーブルなど)への対応強化。
- ツール利用機能の向上。
アーキテクチャとトークナイザー
OSSモデル
- トランスフォーマーベースのアーキテクチャ:
- Grouped Query Attention (GQA)
- SwiGLUアクティベーション
- 回転位置埋め込み(RoPE)
- RMSNormによる事前正規化
商用モデル
- 標準のフィードフォワードネットワークをMoE層に置き換え。
- 詳細な専門家分割と共有ルーティングで性能を最適化。
トークナイザー
- バイトレベルのバイトペアエンコーディング(BBPE)で151,643トークンをサポート。
- 機能の多様性を実現するために制御トークンを拡張。
事前学習の革新
データ準備
- 高度なフィルタリング: Qwen2-Instructモデルを使用して高品質データを選別。
- 専門分野対応: Qwen2.5-MathおよびQwen2.5-Coderデータセットを統合。
- 合成データ: 厳密な品質チェックを経た合成データを使用。
- バランスの取れたミクスチャ: 科学技術などの過小評価されがちなドメインを優先的にサンプリング。
スケーリング法則
多様なモデルサイズに対して最適なハイパーパラメータを導出し、効率的なトレーニングを実現。
長コンテキスト事前学習
- OSSモデルは32,768トークン、Qwen2.5-Turboは100万トークンまで対応。
- YARNやDual Chunk Attentionなどの革新的手法でシーケンス処理を改善。
事後学習の強化
教師ありファインチューニング(SFT)
- 最大8,192トークンの長文生成に対応。
- 数学、コーディング、多言語タスクの専門データセットを活用。
- 推論チェーンを用いた構造化データ対応能力の向上。
強化学習(RL)
- オフラインRL: 推論、正確性、指示追従性に注力。
- オンラインRL: 真実性、関連性、公平性を向上。
長コンテキストファインチューニング
短文および長文タスクに対するパフォーマンスを最適化する2段階のプロセスを採用。
評価とベンチマーク
全般的な性能
Qwen2.5は、自然言語理解、推論、多言語タスクで優れた結果を示し、多くの主要モデルを凌駕。
- Llama-3-405Bと競合しながら、パラメータ数は5分の1。
- 数学やコーディングタスクで際立つ性能を発揮。
指示調整済みモデル
Qwen2.5-72B-InstructおよびQwen2.5-Plusは、MMLU、MBPP、GSM8Kなどのベンチマークで前バージョンや他のオープンウェイトモデルを上回る結果を達成。
結論
Qwen2.5は、LLM技術における重要な進歩を示しており、卓越した性能、効率性、適応性を提供します。その多様な構成とデータ品質の向上により、AI研究や展開における最先端のアプリケーションに適した選択肢となっています。
詳細はこちら:
Discussion