AIと読むDeepSeek-V3 Technical Report① - Introduction -
英語の論文を日本語にして読んでいきたいです。
Abstract
本稿では、合計6710億のパラメータを持ち、各トークンに対して370億のパラメータがアクティブになる強力な Mixture-of-Experts(MoE)言語モデルであるDeepSeek-V3を発表します。効率的な推論と費用対効果の高いトレーニングを達成するために、DeepSeek-V3はDeepSeek-V2で徹底的に検証されたMulti-head Latent Attention(MLA)とDeepSeekMoEアーキテクチャを採用しています。さらに、DeepSeek-V3はロードバランシングのための補助ロスフリー戦略を先駆的に採用し、より強力なパフォーマンスのためのマルチトークン予測トレーニング目標を設定しています。14.8兆の多様で高品質なトークンでDeepSeek-V3を事前学習し、その後、教師ありファインチューニングと強化学習の段階を経て、その能力を最大限に引き出します。包括的な評価の結果、DeepSeek-V3は他のオープンソースモデルを凌駕し、主要なクローズドソースモデルに匹敵する性能を達成することが明らかになりました。その優れた性能にもかかわらず、DeepSeek-V3のフルトレーニングにはわずか278.8万H800 GPU時間しか必要としません。さらに、トレーニングプロセスは非常に安定しています。トレーニングプロセス全体を通して、回復不能な損失の急上昇やロールバックは発生しませんでした。モデルのチェックポイントは、https://github.com/deepseek-ai/DeepSeek-V3 で入手できます。
図1: DeepSeek-V3 とその競合モデルのベンチマーク性能
1. Introduction
近年、大規模言語モデル(LLM)は急速な反復と進化を遂げており、人工汎用知能(AGI)へのギャップを徐々に縮めています。クローズドソースモデルに加え、DeepSeekシリーズ、LLaMAシリーズ、Qwenシリーズ、Mistralシリーズを含むオープンソースモデルも著しい進歩を遂げ、クローズドソースモデルとのギャップを埋めるべく努力しています。オープンソースモデルの能力の限界をさらに押し上げるため、私たちはモデルをスケールアップし、各トークンに対して370億のパラメータがアクティブになる6710億のパラメータを持つ大規模なMixture-of-Experts(MoE)モデルであるDeepSeek-V3を導入します。
将来を見据えた視点から、私たちは常に強力なモデル性能と経済的なコストを目指しています。そのため、アーキテクチャに関しては、DeepSeek-V3は効率的な推論のためにMulti-head Latent Attention(MLA)を、費用対効果の高いトレーニングのためにDeepSeekMoEを依然として採用しています。
これら2つのアーキテクチャはDeepSeek-V2で検証されており、効率的なトレーニングと推論を実現しながら、堅牢なモデル性能を維持する能力が示されています。基本的なアーキテクチャに加えて、モデルの能力をさらに強化するために、2つの追加戦略を実装します。
第一に、DeepSeek-V3は、ロードバランシングを促進する努力から生じるモデル性能への悪影響を最小限に抑えることを目的として、ロードバランシングのための補助ロスフリー戦略を先駆的に採用します。
第二に、DeepSeek-V3は、評価ベンチマークでの全体的なパフォーマンスを向上させることが観察されたマルチトークン予測トレーニング目標を採用します。
効率的なトレーニングを実現するために、FP8混合精度トレーニングをサポートし、トレーニングフレームワークの包括的な最適化を実装します。低精度トレーニングは、効率的なトレーニングのための有望なソリューションとして登場しており、その進化はハードウェア機能の進歩と密接に結びついています。
本研究では、FP8混合精度トレーニングフレームワークを導入し、非常に大規模なモデルでその有効性を初めて検証します。FP8の計算とストレージのサポートを通じて、トレーニングの加速とGPUメモリ使用量の削減の両方を実現します。
トレーニングフレームワークに関しては、効率的なパイプライン並列処理のためにDualPipeアルゴリズムを設計します。これはパイプラインバブルが少なく、計算と通信の重複によりトレーニング中のほとんどの通信を隠蔽します。この重複により、モデルがさらにスケールアップしても、一定の計算対通信比を維持する限り、ノード間で微細な専門家を採用し、ほぼゼロのall-to-all通信オーバーヘッドを達成できます。
さらに、InfiniBand(IB)およびNVLink帯域幅を最大限に活用するために、効率的なクロスノードall-to-all通信カーネルも開発します。さらに、メモリフットプリントを細心の注意を払って最適化し、コストのかかるテンソル並列処理を使用せずにDeepSeek-V3をトレーニングできるようにします。これらの努力を組み合わせることで、高いトレーニング効率を達成します。
事前トレーニング中、DeepSeek-V3は14.8Tの高品質で多様なトークンでトレーニングされます。事前トレーニングプロセスは非常に安定しています。トレーニングプロセス全体を通して、回復不能な損失の急上昇やロールバックは発生しませんでした。次に、DeepSeek-V3の2段階のコンテキスト長拡張を実行します。最初の段階では、最大コンテキスト長を32Kに拡張し、2番目の段階では128Kにさらに拡張します。その後、DeepSeek-V3のベースモデルで教師ありファインチューニング(SFT)と強化学習(RL)を含むポストトレーニングを実施し、人間の好みに合わせてその可能性をさらに引き出します。ポストトレーニング段階では、DeepSeek-R1シリーズのモデルから推論能力を蒸留すると同時に、モデルの精度と生成長のバランスを注意深く維持します。
Training Costs | Pre-Training | Context Extension | Post-Training | Total |
---|---|---|---|---|
in H800 GPU Hours | 2664K | 119K | 5K | 2788K |
in USD | $5.328M | $0.238M | $0.01M | $5.576M |
表1: DeepSeek-V3 のトレーニングコスト(H800 のレンタル価格を 1 GPU 時間あたり $2 と仮定)
私たちは、包括的なベンチマーク配列でDeepSeek-V3を評価します。経済的なトレーニングコストにもかかわらず、包括的な評価の結果、DeepSeek-V3-Baseは、特にコードと数学において、現在利用可能な最強のオープンソースベースモデルとして登場しました。そのチャットバージョンも、他のオープンソースモデルを凌駕し、一連の標準ベンチマークおよびオープンエンドベンチマークで、GPT-4oやClaude-3.5-Sonnetなどの主要なクローズドソースモデルに匹敵するパフォーマンスを達成します。
最後に、アルゴリズム、フレームワーク、ハードウェアの最適化された共同設計を通じて達成されたDeepSeek-V3の経済的なトレーニングコストを、表1に要約して改めて強調します。事前トレーニング段階では、DeepSeek-V3を1兆トークンごとにトレーニングするには、わずか180KのH800 GPU時間、つまり2048個のH800 GPUを備えたクラスターで3.7日しか必要としません。その結果、事前トレーニング段階は2か月未満で完了し、2664K GPU時間を要しました。コンテキスト長拡張に119K GPU時間、ポストトレーニングに5K GPU時間を加えると、DeepSeek-V3のフルトレーニングにはわずか278.8万GPU時間しかかかりません。H800 GPUのレンタル価格がGPU時間あたり2ドルだとすると、総トレーニング費用はわずか557.6万ドルになります。上記のコストには、DeepSeek-V3の公式トレーニングのみが含まれており、アーキテクチャ、アルゴリズム、データに関する事前の研究およびアブレーション実験に関連するコストは含まれていないことに注意してください。
私たちの主な貢献は以下のとおりです。
アーキテクチャ:革新的なロードバランシング戦略とトレーニング目標
- DeepSeek-V2の効率的なアーキテクチャに加え、ロードバランシングを促進することから生じるパフォーマンス低下を最小限に抑える、ロードバランシングのための補助ロスフリー戦略を先駆的に採用します。
- Multi-Token Prediction(MTP)目標を調査し、モデルのパフォーマンスに有益であることを証明します。これは、推論の高速化のための投機的デコードにも使用できます。
事前トレーニング:究極のトレーニング効率に向けて
- FP8混合精度トレーニングフレームワークを設計し、非常に大規模なモデルでFP8トレーニングの実現可能性と有効性を初めて検証します。
- アルゴリズム、フレームワーク、ハードウェアの共同設計を通じて、クロスノードMoEトレーニングにおける通信ボトルネックを克服し、ほぼ完全な計算と通信の重複を実現します。これにより、トレーニング効率が大幅に向上し、トレーニングコストが削減され、追加のオーバーヘッドなしでモデルサイズをさらにスケールアップできます。
- わずか266.4万H800 GPU時間という経済的なコストで、14.8TトークンでDeepSeek-V3の事前トレーニングを完了し、現在最も強力なオープンソースベースモデルを作成しました。事前トレーニング後の後続のトレーニング段階には、わずか0.1M GPU時間しか必要ありません。
ポストトレーニング:DeepSeek-R1からの知識蒸留
- 長鎖思考(CoT)モデル、特にDeepSeek R1シリーズモデルの1つから、推論能力を標準LLM、特にDeepSeek-V3に蒸留する革新的な手法を導入します。私たちのパイプラインは、R1の検証および反映パターンをDeepSeek-V3にエレガントに組み込み、その推論パフォーマンスを著しく向上させます。同時に、DeepSeek-V3の出力スタイルと長さを制御します。
コア評価結果の概要
-
知識:
(1) MMLU、MMLU-Pro、GPQAなどの教育ベンチマークでは、DeepSeek-V3は他のすべてのオープンソースモデルを上回り、MMLUで88.5、MMLU-Proで75.9、GPQAで59.1を達成しています。そのパフォーマンスは、GPT-4oやClaude-Sonnet-3.5などの主要なクローズドソースモデルに匹敵し、この分野でオープンソースモデルとクローズドソースモデルの間のギャップを縮めています。
(2) 事実性のベンチマークでは、DeepSeek-V3はSimpleQAとChinese SimpleQAの両方で、オープンソースモデルの中で優れたパフォーマンスを示しています。英語の事実知識(SimpleQA)ではGPT-4oとClaude-Sonnet-3.5に後れを取っていますが、中国語の事実知識(Chinese SimpleQA)ではこれらのモデルを上回り、中国語の事実知識における強みを強調しています。 -
コード、数学、推論:
(1) DeepSeek-V3は、すべての非長鎖思考オープンソースモデルおよびクローズドソースモデルの中で、数学関連のベンチマークで最先端のパフォーマンスを達成します。特に、MATH-500などの特定のベンチマークではo1-previewよりも優れており、その堅牢な数学的推論能力を示しています。
(2) コーディング関連のタスクでは、DeepSeek-V3はLiveCodeBenchなどのコーディングコンペティションベンチマークで最高のパフォーマンスを発揮するモデルとして登場し、この分野における主要なモデルとしての地位を確立しています。エンジニアリング関連のタスクでは、DeepSeek-V3はClaude-Sonnet-3.5をわずかに下回っていますが、他のすべてのモデルを大幅に上回っており、多様な技術ベンチマークで競争力を示しています。
本稿の残りの部分では、まずDeepSeek-V3モデルアーキテクチャの詳細な説明(セクション2)を行います。次に、コンピュータークラスター、トレーニングフレームワーク、FP8トレーニングのサポート、推論展開戦略、および将来のハードウェア設計に関する提案を含むインフラストラクチャを紹介します。次に、トレーニングデータの構築、ハイパーパラメータ設定、長コンテキスト拡張技術、関連する評価、およびいくつかの考察を含む事前トレーニングプロセスについて説明します(セクション4)。その後、教師ありファインチューニング(SFT)、強化学習(RL)、対応する評価、および考察を含む、ポストトレーニングに関する取り組みについて説明します(セクション5)。最後に、本研究を締めくくり、DeepSeek-V3の既存の制限について議論し、今後の研究の潜在的な方向性について提案します(セクション6)。
Architectureへ続く
Discussion