AIと読むDeepSeek-V3 Technical Report⑤ - Post-Training -
英語の論文を日本語にして読んでいきたいです。ラストです。
5. Post-Training
5.1 教師ありファインチューニング
我々は、多様なドメインにまたがる150万件のインスタンスを含むインストラクションチューニングデータセットをキュレーションしており、各ドメインは、その特定の要件に合わせて調整された個別のデータ作成方法を採用しています。
推論データ:
数学、コードコンペティション問題、ロジックパズルに焦点を当てた推論関連データセットについては、内部のDeepSeek-R1モデルを活用してデータを生成します。具体的には、R1によって生成されたデータは高い精度を示す一方で、過度の思考、不適切なフォーマット、過剰な長さなどの問題を抱えています。我々の目標は、R1によって生成された推論データの高い精度と、定期的にフォーマットされた推論データの明瞭さと簡潔さのバランスを取ることです。
我々の方法論を確立するために、まず、教師ありファインチューニング(SFT)と強化学習(RL)の組み合わせによるトレーニングパイプラインを使用して、コード、数学、または一般的な推論などの特定のドメインに合わせた専門モデルを開発します。この専門モデルは、最終モデルのデータジェネレーターとして機能します。トレーニングプロセスには、インスタンスごとに2つの異なるタイプのSFTサンプルを生成することが含まれます。1つ目は<problem, original response>
の形式で問題とその元の応答を組み合わせ、2つ目は<system prompt, problem, R1 response>
の形式で、問題とR1応答に加えてシステムプロンプトを組み込みます。
システムプロンプトは、モデルがリフレクションと検証のためのメカニズムが豊富に組み込まれた応答を生成するように導く指示を含むように細心の注意を払って設計されています。RLフェーズ中、モデルは高温サンプリングを活用して、明示的なシステムプロンプトがない場合でも、R1生成データとオリジナルデータ両方のパターンを統合した応答を生成します。数百回のRLステップ後、中間RLモデルはR1パターンを組み込むことを学習し、それによって全体的なパフォーマンスを戦略的に向上させます。
RLトレーニングフェーズの完了後、専門モデルをデータ生成ソースとして使用して、最終モデル用の高品質のSFTデータをキュレーションするために、リジェクションサンプリングを実装します。この手法により、最終的なトレーニングデータはDeepSeek-R1の強みを保持しながら、簡潔かつ効果的な応答を生成することが保証されます。
非推論データ:
創造的な文章、ロールプレイ、簡単な質疑応答などの非推論データについては、DeepSeek-V2.5を使用して応答を生成し、人間のアノテーターにデータの正確性と正当性を検証してもらいます。
SFTの設定:
DeepSeek-V3-BaseをSFTデータセットを使用して2エポックファインチューニングします。学習率にはコサイン減衰スケジュールを使用し、
5.2 強化学習
5.2.1 報酬モデル
我々は、RLプロセスでルールベースの報酬モデル(RM)とモデルベースのRMを採用します。
ルールベースのRM:
特定ルールを使用して検証できる質問については、ルールベースの報酬システムを採用してフィードバックを決定します。たとえば、特定の数学の問題には決定論的な結果があり、モデルは指定された形式(例えば、ボックス内)で最終的な答えを提供する必要があります。これにより、ルールを適用して正しさを検証できます。同様に、LeetCodeの問題については、コンパイラーを利用して、テストケースに基づいてフィードバックを生成できます。可能な限りルールベースの検証を活用することで、このアプローチは操作や悪用に耐性があるため、より高いレベルの信頼性を確保できます。
モデルベースのRM:
自由形式の正解がある質問については、報酬モデルに、応答が期待される正解と一致するかどうかを判断してもらいます。逆に、創造的な文章など、明確な正解がない質問については、報酬モデルは質問と対応する回答を入力として、フィードバックを提供する役割を担います。報酬モデルはDeepSeek-V3 SFTチェックポイントからトレーニングされます。信頼性を高めるために、最終的な報酬を提供するだけでなく、報酬に至る思考の連鎖も含む選好データを構築します。このアプローチは、特定のタスクにおける報酬ハッキングのリスクを軽減するのに役立ちます。
5.2.2 グループ相対ポリシー最適化
DeepSeek-V2(DeepSeek-AI, 2024c)と同様に、我々は、通常はポリシーモデルと同じサイズであるクリティックモデルを省略し、代わりにグループスコアからベースラインを推定するグループ相対ポリシー最適化(GRPO)(Shao et al., 2024)を採用します。具体的には、各質問
ここで、
ここで、
RLプロセス中に、コーディング、数学、文章、ロールプレイング、質疑応答など、さまざまなドメインからのプロンプトを組み込みます。このアプローチは、モデルを人間の選好にさらに近づけるだけでなく、特に利用可能なSFTデータが限られているシナリオで、ベンチマークでのパフォーマンスを向上させます。
5.3 評価
5.3.1 評価設定
評価ベンチマーク:
ベースモデルのテストに使用したベンチマークとは別に、IFEval (Zhou et al., 2023)、FRAMES (Krishna et al., 2024)、LongBench v2 (Bai et al., 2024)、GPQA (Rein et al., 2023)、SimpleQA (OpenAI, 2024c)、C-SimpleQA (He et al., 2024)、SWE-Bench Verified (OpenAI, 2024d)、Aider 1、LiveCodeBench (Jain et al., 2024)(2024年8月から2024年11月までの質問)、Codeforces 2、中国全国高校数学オリンピック(CNMO 2024)3、および米国招待数学試験2024(AIME 2024)(MAA, 2024)で、インストラクションモデルをさらに評価します。
比較ベースライン:
我々は、DeepSeek-V2-0506、DeepSeek-V2.5-0905、Qwen2.5 72B Instruct、LLaMA-3.1 405B Instruct、Claude-Sonnet-3.5-1022、GPT-4o-0513などのいくつかの強力なベースラインに対して、チャットモデルの包括的な評価を実施します。DeepSeek-V2モデルシリーズについては、比較のために最も代表的なバリアントを選択します。クローズドソースモデルについては、それぞれのAPIを介して評価を実行します。
詳細な評価構成:
MMLU、DROP、GPQA、SimpleQAなどの標準ベンチマークについては、simple-evalsフレームワーク4から評価プロンプトを採用します。MMLU-Reduxにはゼロショット設定でZero-Evalプロンプト形式 (Lin, 2024)を使用します。他のデータセットについては、データセット作成者が提供するデフォルトのプロンプトで元の評価プロトコルに従います。コードおよび数学のベンチマークの場合、HumanEval-Mulデータセットには、合計8つの主流のプログラミング言語(Python、Java、Cpp、C#、JavaScript、TypeScript、PHP、およびBash)が含まれています。LiveCodeBenchではCoTおよび非CoTメソッドを使用してモデルのパフォーマンスを評価します。ここで、データは2024年8月から2024年11月にかけて収集されます。Codeforcesデータセットは、競合他社の割合を使用して測定されます。SWE-Bench verifiedは、エージェントレスフレームワーク (Xia et al., 2024)を使用して評価されます。Aider関連ベンチマークを評価するために「diff」形式を使用します。数学的評価については、AIMEとCNMO 2024は0.7の温度で評価され、結果は16回の実行で平均化されます。一方、MATH-500は貪欲なデコーディングを採用します。すべてのモデルで、各ベンチマークの最大8192トークンまでの出力を許可します。
表6: DeepSeek-V3と他の代表的なチャットモデルの比較。すべてのモデルは、出力長を8Kに制限する構成で評価されます。サンプル数が1000未満のベンチマークは、堅牢な最終結果を得るために、さまざまな温度設定を使用して複数回テストされます。DeepSeek-V3は、最高のパフォーマンスを発揮するオープンソースモデルであり、フロンティアクローズドソースモデルに対しても競争力のあるパフォーマンスを示しています。
5.3.2 標準評価
表6は評価結果を示しており、DeepSeek-V3が最も優れたオープンソースモデルであることを示しています。さらに、GPT-4oやClaude-3.5-Sonnetなどのフロンティアクローズドソースモデルに対しても競争力があります。
英語ベンチマーク:
MMLUは、多様な知識ドメインとタスクにわたって大規模言語モデルのパフォーマンスを評価するために設計された、広く認知されているベンチマークです。DeepSeek-V3は、LLaMA-3.1-405B、GPT-4o、Claude-Sonnet 3.5などのトップティアモデルに匹敵する競争力のあるパフォーマンスを示しており、Qwen2.5 72Bを大幅に上回っています。さらに、DeepSeek-V3は、より難易度の高い教育知識ベンチマークであるMMLU-Proで優れており、Claude-Sonnet 3.5に肉薄しています。修正されたラベルを使用したMMLUの改良版であるMMLU-Reduxでは、DeepSeek-V3は他のモデルを上回っています。さらに、博士課程レベルの評価テストベッドであるGPQA-Diamondでは、DeepSeek-V3は目覚ましい結果を達成し、Claude 3.5 Sonnetに次ぐ2位につけ、他のすべての競合他社を大幅に上回っています。
DROP、LongBench v2、FRAMESなどの長文コンテキスト理解ベンチマークでは、DeepSeek-V3は引き続きトップティアモデルとしての地位を実証しています。DROPでは3ショット設定で驚異的な91.6 F1スコアを達成し、このカテゴリの他のすべてのモデルを上回っています。10万トークンを超えるコンテキストでの質疑応答を必要とするベンチマークであるFRAMESでは、DeepSeek-V3はGPT-4oに肉薄し、他のすべてのモデルを大幅に上回っています。これは、非常に長いコンテキストタスクを処理する際のDeepSeek-V3の強力な能力を示しています。DeepSeek-V3の長文コンテキスト機能は、DeepSeek V3の発売の数週間前にリリースされたデータセットであるLongBench v2でのクラス最高のパフォーマンスによってさらに検証されます。事実知識ベンチマークであるSimpleQAでは、DeepSeek-V3は、その設計焦点とリソース割り当てのため、主にGPT-4oとClaude-Sonnetに劣ります。DeepSeek-V3は、中国語の知識を学習するためにより多くのトレーニングトークンを割り当てており、C-SimpleQAで優れたパフォーマンスにつながっています。インストラクションフォローベンチマークでは、DeepSeek-V3は前モデルであるDeepSeek-V2シリーズを大幅に上回り、ユーザー定義の形式制約を理解し、順守する能力が向上していることを強調しています。
コードと数学のベンチマーク:
コーディングは、SWE-Bench-VerifiedやAiderなどのエンジニアリングに焦点を当てたタスクだけでなく、HumanEvalやLiveCodeBenchなどのアルゴリズムタスクも包含する、LLMにとって挑戦的で実用的なタスクです。エンジニアリングタスクでは、DeepSeek-V3はClaude-Sonnet-3.5-1022に後れを取っていますが、オープンソースモデルを大幅に上回っています。オープンソースのDeepSeek-V3は、コーディング関連のエンジニアリングタスクの進歩を促進することが期待されます。その堅牢な機能へのアクセスを提供することにより、DeepSeek-V3は、ソフトウェアエンジニアリングやアルゴリズム開発などの分野でのイノベーションと改善を促進し、開発者や研究者がコーディングタスクでオープンソースモデルが達成できることの境界を押し広げる力を与えることができます。アルゴリズムタスクでは、DeepSeek-V3はHumanEval-MulやLiveCodeBenchなどのベンチマークで他のすべてのベースラインを上回り、優れたパフォーマンスを示しています。この成功は、アルゴリズムに焦点を当てたタスクでのコード生成と問題解決能力を効果的に向上させる高度な知識蒸留技術に起因すると考えられます。
数学ベンチマークでは、DeepSeek-V3は優れたパフォーマンスを発揮し、ベースラインを大幅に上回り、o1系以外のモデルの新しい最先端を確立しています。具体的には、AIME、MATH-500、CNMO 2024では、DeepSeek-V3は2番目に優れたモデルであるQwen2.5 72Bを絶対スコアで約10%上回っており、これはこのような困難なベンチマークでは大幅なマージンです。この目覚ましい能力は、DeepSeek-R1からの蒸留技術の有効性を強調しており、o1系以外のモデルにとって非常に有益であることが証明されています。
中国語ベンチマーク:
QwenとDeepSeekは、中国語と英語の両方を強力にサポートする2つの代表的なモデルシリーズです。事実ベンチマークであるChinese SimpleQAでは、DeepSeek-V3は、Qwen2.5が18Tトークンからなるより大きなコーパスでトレーニングされているにもかかわらず、16.4ポイント上回っています。これは、DeepSeek-V3が事前トレーニングされている14.8Tトークンよりも20%多いものです。
中国の教育知識評価の代表的なベンチマークであるC-Evalと、CLUEWSC(中国のウィノグラードスキーマチャレンジ)では、DeepSeek-V3とQwen2.5-72Bが同様のパフォーマンスレベルを示しており、どちらのモデルも、困難な中国語の推論および教育タスクに十分に最適化されていることを示しています。
モデル | Arena-Hard | AlpacaEval 2.0 |
---|---|---|
DeepSeek-V2.5-0905 | 76.2 | 50.5 |
Qwen2.5-72B-Instruct | 81.2 | 49.1 |
LLaMA-3.1 405B | 69.3 | 40.5 |
GPT-4o-0513 | 80.4 | 51.1 |
Claude-Sonnet-3.5-1022 | 85.2 | 52.0 |
DeepSeek-V3 | 85.5 | 70.0 |
表7:英語のオープンエンドな会話の評価。AlpacaEval 2.0では、メトリックとして長さ制御された勝率を使用します。
5.3.3 オープンエンド評価
標準ベンチマークに加えて、表7に示すように、LLMをジャッジとして使用して、オープンエンド生成タスクでモデルを評価します。具体的には、ペアワイズ比較のためにGPT-4-Turbo-1106をジャッジとして活用するAlpacaEval 2.0 (Dubois et al., 2024) とArena-Hard (Li et al., 2024a) の元の構成に従います。Arena-Hardでは、DeepSeek-V3はベースラインのGPT-4-0314に対して86%を超える驚異的な勝率を達成し、Claude-Sonnet-3.5-1022などのトップティアモデルと同等のパフォーマンスを発揮します。これは、特にコーディングやデバッグタスクなど、複雑なプロンプトを扱う際のDeepSeek-V3の堅牢な機能を強調しています。さらに、DeepSeek-V3は、Arena-Hardベンチマークで85%を超える初のオープンソースモデルとして、画期的なマイルストーンを達成しました。この成果は、オープンソースモデルとクローズドソースモデル間のパフォーマンスギャップを大幅に埋め、困難な分野でオープンソースモデルが達成できることの新しい標準を設定します。
同様に、DeepSeek-V3はAlpacaEval 2.0で優れたパフォーマンスを発揮し、クローズドソースモデルとオープンソースモデルの両方を上回っています。これは、文章作成タスクと簡単な質疑応答シナリオを処理する際の卓越した能力を示しています。特に、DeepSeek-V2.5-0905を20%という大幅なマージンで上回っており、簡単なタスクに取り組む際の著しい改善と、その進歩の有効性を示しています。
5.3.4 生成報酬モデルとしてのDeepSeek-V3
DeepSeek-V3の判断能力を、最先端のモデルであるGPT-4oおよびClaude-3.5と比較します。表8に、RewardBench (Lambert et al., 2024)におけるこれらのモデルのパフォーマンスを示します。DeepSeek-V3は、GPT-4o-0806およびClaude-3.5-Sonnet-1022の最高のバージョンと同等のパフォーマンスを達成し、他のバージョンを上回っています。さらに、DeepSeek-V3の判断能力は、投票技術によっても強化できます。したがって、DeepSeek-V3を投票と合わせて使用して、オープンエンドな質問に対する自己フィードバックを提供し、それによってアライメントプロセスの有効性と堅牢性を向上させます。
モデル | Chat | Chat-Hard | Safety | Reasoning | Average |
---|---|---|---|---|---|
GPT-4o-0513 | 96.6 | 70.4 | 86.7 | 84.9 | 84.7 |
GPT-4o-0806 | 96.1 | 76.1 | 88.1 | 86.6 | 86.7 |
GPT-4o-1120 | 95.8 | 71.3 | 86.2 | 85.2 | 84.6 |
Claude-3.5-sonnet-0620 | 96.4 | 74.0 | 81.6 | 84.7 | 84.2 |
Claude-3.5-sonnet-1022 | 96.4 | 79.7 | 91.1 | 87.6 | 88.7 |
DeepSeek-V3 | 96.9 | 79.8 | 87.0 | 84.3 | 87.0 |
DeepSeek-V3 (maj@6) | 96.9 | 82.6 | 89.5 | 89.2 | 89.6 |
表8:RewardBenchにおけるGPT-4o、Claude-3.5-sonnet、およびDeepSeek-V3のパフォーマンス。
5.4 考察
5.4.1 DeepSeek-R1からの蒸留
DeepSeek-V2.5に基づいて、DeepSeek-R1からの蒸留の貢献度をアブレーションします。ベースラインは短いCoTデータでトレーニングされていますが、競合は上記で説明した専門チェックポイントによって生成されたデータを使用します。
表9は、蒸留データの有効性を示しており、LiveCodeBenchとMATH-500の両方のベンチマークで大幅な改善を示しています。私たちの実験では、興味深いトレードオフが明らかになっています。蒸留はパフォーマンスの向上につながりますが、平均応答長も大幅に増加します。モデルの精度と計算効率のバランスを維持するために、蒸留でDeepSeek-V3の最適な設定を慎重に選択しました。
我々の研究は、推論モデルからの知識蒸留が、ポストトレーニング最適化のための有望な方向性であることを示唆しています。現在の作業は、数学とコーディングのドメインからのデータ蒸留に焦点を当てていますが、このアプローチは、さまざまなタスクドメインにわたる幅広いアプリケーションの可能性を示しています。これらの特定の分野で実証された有効性は、長CoT蒸留が複雑な推論を必要とする他の認知タスクでのモデルパフォーマンスを向上させるのに役立つ可能性があることを示しています。さまざまなドメインにわたるこのアプローチのさらなる調査は、将来の研究の重要な方向性です。
モデル | LiveCodeBench-CoT | MATH-500 |
---|---|---|
Pass@1 | Length | |
DeepSeek-V2.5 Baseline | 31.1 | 718 |
DeepSeek-V2.5 +R1 Distill | 37.4 | 783 |
表9:DeepSeek-R1からの蒸留の貢献。LiveCodeBenchおよびMATH-500の評価設定は、表6と同じです。
5.4.2 自己報酬
報酬はRLにおいて、最適化プロセスを導く上で極めて重要な役割を果たします。一部のコーディングや数学のシナリオのように、外部ツールによる検証が簡単なドメインでは、RLは卓越した効果を発揮します。ただし、より一般的なシナリオでは、ハードコーディングを通じてフィードバックメカニズムを構築することは非現実的です。DeepSeek-V3の開発中、これらのより広範なコンテキストのために、我々はDeepSeek-V3自体の投票評価結果をフィードバックソースとして活用し、憲法的AIアプローチ (Bai et al., 2022) を採用しました。この方法は、注目すべきアライメント効果を生み出し、主観的な評価におけるDeepSeek-V3のパフォーマンスを大幅に向上させました。追加の憲法的入力を統合することにより、DeepSeek-V3は憲法的な方向に最適化できます。我々は、LLMをフィードバックソースとして追加情報と組み合わせるこのパラダイムが最も重要であると信じています。LLMは、多様なシナリオからの構造化されていない情報を報酬に変換できる多目的なプロセッサとして機能し、最終的にはLLMの自己改善を促進します。自己報酬を超えて、一般的なシナリオでモデルの能力を常に向上させるための、他の一般的でスケーラブルな報酬方法の発見にも専念しています。
5.4.3 マルチトークン予測評価
DeepSeek-V3は、次の単一トークンのみを予測するのではなく、MTP技術を通じて次の2つのトークンを予測します。推論デコードのフレームワーク (Leviathan et al., 2023; Xia et al., 2023) と組み合わせることで、モデルのデコード速度を大幅に向上させることができます。当然、追加で予測されたトークンの受け入れ率について疑問が生じます。評価に基づいて、2番目のトークン予測の受け入れ率は、さまざまな生成トピックで85%から90%の範囲であり、一貫した信頼性を示しています。この高い受け入れ率により、DeepSeek-V3は大幅に改善されたデコード速度を達成でき、1.8倍のTPS(トークン/秒)を実現しています。
6 結論、制約、今後の方向性
この論文では、14.8Tトークンでトレーニングされた、671Bの総パラメータと37Bの活性化パラメータを持つ大規模なMoE言語モデルであるDeepSeek-V3を紹介します。MLAおよびDeepSeekMoEアーキテクチャに加えて、負荷分散のための補助損失のない戦略を先駆的に採用し、より強力なパフォーマンスのためにマルチトークン予測トレーニングの目標を設定しています。DeepSeek-V3のトレーニングは、FP8トレーニングと綿密なエンジニアリング最適化のサポートにより費用対効果が高くなっています。ポストトレーニングは、DeepSeek-R1モデルシリーズからの推論能力の蒸留にも成功しています。包括的な評価は、DeepSeek-V3が現在利用可能な最強のオープンソースモデルとして登場し、GPT-4oやClaude-3.5-Sonnetなどの主要なクローズドソースモデルに匹敵するパフォーマンスを達成していることを示しています。強力なパフォーマンスにもかかわらず、経済的なトレーニングコストも維持しています。事前トレーニング、コンテキスト長の拡張、ポストトレーニングを含む完全なトレーニングには、278.8万H800 GPU時間しか必要としません。
DeepSeek-V3の強力なパフォーマンスと費用対効果を認めながらも、特にデプロイメントにおいていくつかの制約があることも認識しています。まず、効率的な推論を確実にするために、DeepSeek-V3に推奨されるデプロイメントユニットは比較的大規模であり、小規模チームにとっては負担になる可能性があります。次に、DeepSeek-V3のデプロイメント戦略は、DeepSeek-V2の2倍以上のエンドツーエンドの生成速度を達成しましたが、さらなる向上の可能性はまだ残っています。幸いなことに、これらの制限は、より高度なハードウェアの開発によって自然に解決されることが期待されます。
DeepSeekは、AGI(人工汎用知能)の究極の目標にを着実に近づけることを目指して、長期主義でオープンソースモデルのルートを常に順守しています。今後は、以下の方向性で戦略的に研究に投資する予定です。
- トレーニングと推論の両方の効率をさらに向上させることを目指して、モデルアーキテクチャを継続的に研究および改良し、無限のコンテキスト長に対する効率的なサポートに近づけるように努めます。さらに、Transformerのアーキテクチャ上の制約を打破し、それによってモデリング能力の限界を押し広げようとします。
- トレーニングデータの量と質を継続的に反復し、より包括的な範囲の次元にわたってデータスケーリングを推進することを目指して、追加のトレーニング信号ソースの組み込みを検討します。
- モデルの深い思考能力を継続的に調査および反復し、推論の長さと深さを拡大することにより、その知性と問題解決能力を向上させることを目指します。
- 研究中に固定された一連のベンチマークの最適化に傾倒する傾向を防ぎ、モデルの能力の誤解を招く印象を与える可能性があり、基本的な評価に影響を与える可能性があるため、より包括的で多次元的なモデル評価方法を検討します。
お疲れ様でした。
Discussion