📝

DeepSeek-R1 : Incentivizing Reasoning Capability in LLMs via RL

2025/01/29に公開

https://arxiv.org/abs/2501.12948

要約

  1. DeepSeek-R1-Zero

    • 教師あり学習なしで強化学習のみで訓練された世界初のモデル
    • AIME 2024 で 71% の正解率を達成
    • ただし可読性の低さや言語の混合といった課題がある
  2. DeepSeek-R1

    • R1-Zeroの課題を解決するため少量の教師データと段階的な訓練を導入
    • OpenAI-o1-1217 と同等の性能を達成
    • 数学(AIME 2024 で 79.8%)やコーディング(Codeforces で上位 96.3%)で特に高性能
  3. 小規模モデルへ知識蒸留

    • DeepSeek-R1 の知識を 1.5B-70B の小規模モデルに蒸留
    • 32B モデルは多くのベンチマークで OpenAI-o1-mini を上回る性能を達成

Abstract

DeepSeek-R1-Zero の特徴 :

  • 教師あり微調整 (SFT) を行わず大規模強化学習 (RL) のみで訓練
  • 自然に強力な推論能力を獲得
  • 課題として可読性の低さと言語混合問題

DeepSeek-R1 の特徴 :

  • 上記課題解決のためコールドスタートデータとマルチステージ訓練を導入
  • OpenAI-o1-1217 と同等の性能を達成

研究成果 :

  • DeepSeek-R1-Zero と DeepSeek-R1 および 6 つの小規模モデル (1.5B, 7B, 8B, 14B, 32B, 70B) をオープンソース化
  • Qwen と Llama をベースに推論能力を蒸留
  • 推論タスクにおける強化学習の有効性を実証

Figure 1

1. Introduction

現状の課題 :

  • ポストトレーニングはフルパイプラインの重要要素に
  • OpenAI の o1 シリーズが Chain-of-Thought 推論プロセスの長さを拡張
  • テストタイム拡張の効率化は未解決の課題として残存

既存アプローチ :

  • プロセスベース報酬モデル
  • 強化学習
  • モンテカルロツリーサーチやビームサーチ
    これらは OpenAI o1 シリーズと同等の性能達成には至らず

本研究のアプローチ :

  • 純粋な強化学習による言語モデルの推論能力向上を探求
  • DeepSeek-V3-Base をベースモデルとして使用
  • GRPO フレームワークで推論性能を改善

成果 :

  1. DeepSeek-R1-Zero :

    • AIME 2024 のスコアを 15.6% から 71.0% に改善
    • マジョリティーボーティングで 86.7% まで向上
    • OpenAI-o1-0912 と同等の性能を実現
  2. DeepSeek-R1 :

    • コールドスタートデータとマルチステージパイプラインを導入
    • 可読性と言語混合の問題を解決
    • OpenAI-o1-1217 と同等の性能を達成
  3. 小規模モデルへの展開 :

    • Qwen2.5-32B への直接蒸留で RL 適用より良好な結果
    • 14B モデルが QwQ-32B-Preview を上回る性能を実現
    • 32B / 70B モデルが密モデルのベンチマークで記録を更新

1.1. Contributions

ポストトレーニング : 大規模強化学習によるベースモデルの改良

  1. DeepSeek-R1-Zero の開発

    • SFT を使用せず純粋な RL でモデルを訓練
    • 自己検証、リフレクション、長い CoT を生成
    • RL のみで LLM の推論能力獲得を初めて実証
  2. DeepSeek-R1 開発パイプライン

    • 2 つの RL ステージを導入し推論パターンを発見
    • 2 つの SFT ステージで推論・非推論機能を習得
    • モデル品質を向上させる業界標準的なパイプラインを確立

ディスティレーション : 小規模モデルの能力向上

  1. 大規模モデルの推論パターン蒸留

    • 小規模モデルへの RL 適用より高性能を実現
    • オープンソース化で研究コミュニティーに貢献
  2. 汎用的な密モデルへ適用

    • DeepSeek-R1 で生成したデータを用いて微調整
    • 7B モデルで QwQ-32B-Preview を凌駕
    • 32B モデルで AIME 2024 72.6%, MATH-500 94.3% を達成
    • Qwen2.5 / Llama3 系の 1.5B から 70B までをオープンソース化

1.2. Summary of Evaluation Results

推論タスク

  • AIME 2024 で Pass@1 79.8% を達成し OpenAI-o1-1217 を上回る
  • MATH-500 で 97.3% を記録し他モデルを大きく凌駕
  • コーディング系で Codeforces 上位 96.3% に到達
  • SWE-bench では DeepSeek-V3 より若干の性能向上を確認

知識ベース

  • MMLU で 90.8%、MMLU-Pro で 84.0%, GPQA Diamond で 71.5% を達成
  • DeepSeek-V3 を大幅に上回るが OpenAI-o1-1217 には若干劣る
  • SimpleQA でも DeepSeek-V3 を上回り教育タスクでの競争力を実証
  • OpenAI-o1 と同様のトレンドを示す

その他タスク

  • クリエイティブ文章生成、一般 QA、編集、要約などで高い性能を実現
  • AlpacaEval 2.0 で 87.6%, ArenaHard で 92.3% の勝率を記録
  • 非試験指向クエリーへの対応力を実証
  • 長文理解タスクで DeepSeek-V3 を大幅に上回る性能を達成

2. Approach

2.1. Overview

従来手法 :

  • モデル性能向上に大量の教師データを使用
  • 教師あり学習に強く依存

本研究の新規性 :

  • 強化学習による性能向上
    • SFT なしでも推論能力を大幅に改善可能
    • 少量のコールドスタートデータで更なる性能向上を実現

提案手法の 3 つの柱 :

  1. DeepSeek-R1-Zero

    • ベースモデルに直接 RL を適用
    • SFT データを使用せずに訓練
  2. DeepSeek-R1

    • 数千の長い Chain-of-Thought 例で微調整
    • その後 RL を適用
  3. 小規模モデルへのディスティレーション

    • DeepSeek-R1 の推論能力を小規模な密モデルへ転移
    • 計算効率と性能のバランスを追求

2.2. DeepSeek-R1-Zero: Reinforcement Learning on the Base Model

背景 :

  • 推論タスクにおける RL の有効性を先行研究で確認
  • 従来の手法は教師データへの依存度が高くデータ収集に多大なコスト

研究目標 :

  • 教師データを使用しない LLM の推論能力獲得を検証
  • 純粋な RL プロセスによる自己進化に焦点

アプローチ :

  • RL アルゴリズム概要説明
  • 実験結果プレゼンテーション

2.2.1. Reinforcement Learning Algorithm

Group Relative Policy Optimization (GRPO) を用いた強化学習手法の詳細を説明

アルゴリズムの特徴 :

  • 通常の RL で必要なクリティックモデルを不要に
  • グループスコアからベースラインを推定
  • ポリシーモデルと同サイズのモデルを省略可能

GRPO の計算プロセス :

  1. 各質問 q に対し古いポリシー \pi_{\theta_{old}} から G 個の出力をサンプリング
  2. 以下の目的関数を最大化 :
    • ポリシーモデル \pi_\theta の最適化
    • クリップ付き重要度サンプリング
    • KL ダイバージェンスによる正則化

アドバンテージ計算 :

  • グループ内の報酬 \{r_1, r_2, ..., r_G\} を使用
  • 平均と標準偏差で正規化
  • グループ単位でのパフォーマンス評価を実現

特徴的なパラメーター :

  • \epsilon : クリッピング範囲を制御
  • \beta : KL 正則化の強さを調整

目的関数を含む GRPO の主要な数式を以下に示す

(1) 目的関数 :

\mathcal J_{GRPO}(\theta) = \mathbb E\left[q \sim P(Q), \{o_i\}^G_{i=1} \sim \pi_{\theta_{old}}(O|q)\right] \frac{1}{G} \sum^G_{i=1} \left(\min\left(\frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}A_i, \text{clip}\left(\frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}, 1-\varepsilon, 1+\varepsilon\right)A_i\right) - \beta D_{KL}(\pi_\theta||\pi_{ref})\right) (2)
D_{KL}(\pi_\theta||\pi_{ref}) = \frac{\pi_{ref}(o_i|q)}{\pi_\theta(o_i|q)} - \log\frac{\pi_{ref}(o_i|q)}{\pi_\theta(o_i|q)} - 1 (3)
A_i = \frac{r_i - \text{mean}(\{r_1,r_2,\cdots,r_G\})}{\text{std}(\{r_1,r_2,\cdots,r_G\})}

ここで

  • \epsilon\beta はハイパーパラメーター
  • A_i はグループ内報酬から計算されるアドバンテージ
  • r_i は各出力に対応する報酬

2.2.2. Reward Modeling

精度報酬 (Accuracy rewards) :

  • 回答の正確性を評価
  • 数学問題では確定的な結果をボックス内に記載し規則ベースで検証
  • LeetCode 問題は事前定義済みテストケースを用いたコンパイラーで評価

フォーマット報酬 (Format rewards) :

  • 思考プロセスを <think></think> タグ間に記述するよう誘導
  • フォーマット順守の度合いを評価

報酬モデル選択理由 :

  • ニューラル報酬モデルは大規模 RL でリワードをハッキングされるリスク
  • 報酬モデルの再訓練は追加リソースが必要
  • 訓練パイプラインが複雑化するリスク

2.2.3. Training Template

DeepSeek-R1-Zero の訓練テンプレートを以下の要素で構成

基本構造 :

  • ユーザーの質問に対する会話形式
  • アシスタントが思考プロセスと回答を提供

タグ構造:

  • <think></think> : 推論プロセス
  • <answer></answer> : 最終回答

設計方針 :

  • 構造的フォーマットのみを制約
  • リフレクティブ推論や特定の問題解決戦略を強制しない
  • モデルの自然な進化プロセスを観察可能に設定

Table 1 に示すテンプレートを使い訓練中に具体的な推論問題で prompt を置換

Table 1

2.2.4. Performance, Self-evolution Process and Aha Moment of DeepSeek-R1-Zero

Performance のポイント :

  • AIME 2024 ベンチマークで pass@1 スコアが 15.6% から 71.0% に向上
  • マジョリティvボーティングで 86.7% まで改善し OpenAI-o1-0912 に匹敵
  • 教師なし学習で有効な推論能力を獲得

自己進化プロセス :

  • 思考時間が訓練過程で一貫して増加
  • トークン生成数が数百から数千に拡大
  • リフレクションや代替アプローチ探索が自然発生
  • 外部調整なしで複雑な推論タスクへの対応力を獲得

Aha Moment の特徴 :

  • 中間バージョンで問題に対する思考時間配分を学習
  • 初期アプローチを再評価する能力を獲得
  • モデルと研究者双方にとって重要な発見

モデルの課題:

  • 可読性の低さ
  • 言語混合の問題
  • DeepSeek-R1 開発による人間フレンドリーな改善が必要

Figure 2

Table 2

Figure 3

Table 3

2.3. DeepSeek-R1 : Reinforcement Learning with Cold Start

研究課題 :

  1. 高品質コールドスタートデータによる推論性能向上と収束加速可能性
  2. 明確な Chain of Thought (CoT) と優れた汎用性を両立したユーザフレンドリーモデル開発

解決手法 :
4 段階で構成される DeepSeek-R1 訓練パイプライン構築を提案

主な特徴 :

  • 少量の高品質データを活用
  • ユーザビリティーと推論能力を同時に強化
  • 段階的な訓練プロセスで性能を最適化

2.3.1. Cold Start

データ収集アプローチ :

  • Few-shot プロンプトで長い CoT を例として使用
  • モデルに詳細な回答と検証、リフレクションを生成させる
  • DeepSeek-R1-Zero の出力を可読形式に変換
  • 人手でポストプロセス処理を実施

利点 :

  1. 可読性向上

    • 複数言語混在問題を解消
    • Markdown フォーマットで回答をハイライト
    • reader-friendly なパターンを設計
    • |special_token| タグで推論プロセスとサマリーを分離
  2. ポテンシャル向上

    • 人間の知見を活用したパターン設計
    • DeepSeek-R1-Zero を上回る性能を実現
    • 反復的な訓練による継続的改善

実装 :

  • 数千のコールドスタートデータを収集
  • DeepSeek-V3-Base の Fine-tuning に使用
  • RL の開始点として活用

2.3.2. Reasoning-oriented Reinforcement Learning

コールドスタートデータによる Fine-tuning 後に大規模 RL トレーニングを適用

トレーニング対象 :

  • コーディング
  • 数学
  • 科学
  • 論理推論
    など明確な解を持つタスク

言語一貫性を改善 :

  • RL トレーニング中に言語一貫性リワードを導入
  • CoT 内のターゲット言語の単語比率で評価
  • アブレーション実験で性能低下を確認したが人間の選好に合わせて採用

最終リワード構成 :

  • 推論タスク精度
  • 言語一貫性リワード
    この 2 つを直接合算

トレーニングプロセス :

  • Fine-tuning したモデルに RL を適用
  • 推論タスクで収束するまでトレーニングを継続

2.3.3. Rejection Sampling and Supervised Fine-Tuning

推論指向 RL 収束後のデータ生成とモデル Fine-tuning プロセス

SFT データ生成 :

  • RL チェックポイントから Rejection Sampling を実施
  • Rule-based と Generative な報酬モデルを併用
  • DeepSeek-V3 で予測と Ground-truth を判定

品質フィルタリング :

  • 混合言語の Chain-of-thought を除外
  • 長いパラグラフとコードブロックを除外
  • 各プロンプトから複数レスポンスを生成し正解のみ保持
  • 推論関連で約 60 万サンプルを収集

非推論データ :

  • DeepSeek-V3 パイプラインと SFT データセットを再利用
  • 文章生成や Factual QA などで約 20 万サンプル
  • 単純クエリーには CoT を付与せず直接回答

訓練プロセス :

  • 合計約 80 万サンプルで DeepSeek-V3-Base を 2 エポック Fine-tuning
  • 様々なタスクで汎用的な能力を獲得

2.3.4. Reinforcement Learning for all Scenarios

第 2 RL フェーズの実装内容を以下のポイントで説明

モデル調整手法 :

  • 推論能力向上と人間の選好に合わせた RL トレーニング実施
  • ルールベース報酬と報酬モデルを組み合わせて使用

報酬設計 :

  • 推論データ : DeepSeek-R1-Zero と同様のルールベース報酬
  • 一般データ : 報酬モデルで人間の選好を評価
  • DeepSeek-V3 パイプラインを基にプロンプト分布を設定

評価フォーカス :

  • 有用性評価 : サマリーのみを対象
  • 安全性評価 : 推論プロセスとサマリー全体を確認

最終目標 :

  • 推論性能とユーザビリティーを両立
  • 有用性と安全性を考慮した応答生成
  • 人間の選好に沿った出力最適化

2.4. Distillation : Empower Small Models with Reasoning Capability

DeepSeek-R1 から小規模モデルへのディスティレーション手法を説明

ディスティレーションプロセス :

  • DeepSeek-R1 を教師モデルとして 80 万サンプルを生成
  • Qwen および Llama ベースのモデルへ Fine-tuning を実施

ベースモデル :

  • Qwen2.5-Math-1.5B
  • Qwen2.5-Math-7B
  • Qwen2.5-14B
  • Qwen2.5-32B
  • Llama-3.1-8B
  • Llama-3.3-70B-Instruct

選定理由と特徴 :

  • Llama-3.3 は Llama-3.1 より推論性能が高い
  • 異なるモデルサイズでの有効性を検証
  • SFT のみを適用し RL は実施せず

研究コミュニティーへの貢献 :

  • シンプルなディスティレーション手法の効果を実証
  • 小規模モデルでも高い推論能力を実現
  • 追加 RL による性能向上余地を示唆

3. Experiment

ベンチマーク評価

  • MMLU, MMLU-Redux, MMLU-Pro, C-Eval, CMMLU などで知識評価を実施
  • SimpleQA での事実確認能力の検証
  • GPQA Diamond で深い推論能力を評価
  • SWE-bench Verified で実装能力を検証
  • AlpacaEval 2.0 と Arena-Hard で生成能力を評価

評価プロンプト

  • simple-evals フレームワークで MMLU, DROP, GPQA Diamond を評価
  • MMLU-Redux では Zero-Eval プロンプトをゼロショット設定で使用
  • MMLU-Pro, C-Eval, CLUE-WSC はフューショットからゼロショット形式に変更
  • その他のデータセットは提供元のプロトコルに準拠

コード / 数学評価

  • HumanEval-Mul で 8 つのプログラミング言語を評価
  • LiveCodeBench は CoT 形式で評価
  • Codeforces は 10 個の Div.2 コンテストで評価
  • AIDER 関連ベンチマークは diff 形式で評価

ベースライン

  • DeepSeek-V3, Claude-Sonnet-3.5-1022, GPT-4o-0513 と比較
  • OpenAI-o1-mini, OpenAI-o1-1217 の公式報告値を使用
  • 小規模モデルは QwQ-32B-Preview と比較

評価設定

  • 最大生成長 32,768 トークン
  • グリーディーデコーディングの問題を考慮し pass@k 評価を採用
  • サンプリング温度 0.6, top-p 0.95 で k 個の応答を生成
  • AIME 2024 は 64 サンプルでマジョリティー投票も実施

3.1. DeepSeek-R1 Evaluation

DeepSeek-R1 の総合評価結果を主要分野別に報告

教育系タスク評価

  • MMLU で 90.8%, MMLU-Pro で 84.0%, GPQA Diamond で 71.5% を達成
  • STEM 関連で大幅な性能向上
  • FRAMES で高い評価を獲得し文書解析能力を実証
  • SimpleQA で DeepSeek-V3 を上回るもチャイナ語版では安全性 RL の影響で性能低下

フォーマット / 生成タスク評価

  • IF-Eval でフォーマット指示への追従能力を確認
  • AlpacaEval2.0 と ArenaHard で優れた文章生成能力を実証
  • 平均トークン数は ArenaHard で 689, AlpacaEval 2.0 で 2,218 文字と簡潔

数学 / コーディングタスク評価

  • AIME 2024 と MATH-500 で OpenAI-o1-1217 と同等以上の性能を達成
  • LiveCodeBench と Codeforces で強力な推論能力を発揮
  • エンジニアリング系タスクでは OpenAI-o1-1217 に劣後も SWE Verified で同等の性能を確認

今後の改善点

  • エンジニアリング系タスクの RL データ量を増加し性能向上を目指す

Table 4

3.2. Distilled Model Evaluation

蒸留モデルのパフォーマンスを参照モデルと比較評価

主要なベースライン比較

  • GPT-4o-0513 と Claude-3.5-Sonnet を上回る性能を実現
  • DeepSeek-R1-7B は全指標で GPT-4o-0513 より優位
  • DeepSeek-R1-14B は QwQ-32B-Preview を全ベンチマークで凌駕
  • DeepSeek-R1-32B / 70B は o1-mini に近い性能を達成

個別評価結果

  • DeepSeek-R1-7B : AIME 2024 で 55.5%, MATH-500 で 92.8% を記録
  • DeepSeek-R1-32B : AIME 2024 で 72.6%, LiveCodeBench で 57.2% を達成
  • 全サイズのモデルで従来の同規模モデルを大幅に改善

追加考察

  • SFT のみでこの性能を実現
  • RL 適用でさらなる性能向上が期待可能
  • シンプルな蒸留手法の有効性を実証

Table 5

4. Discussion

4.1. Distillation v.s. Reinforcement Learning

小規模モデルへの推論能力転移に関する実験分析結果を報告

RL vs ディスティレーション実験

  • Qwen-32B-Base に 10K ステップの大規模 RL を適用
  • 数学、コード、STEM データで訓練し DeepSeek-R1-Zero-Qwen-32B を生成
  • QwQ-32B-Preview と同等の性能を達成

比較結果

  • DeepSeek-R1-Distill-Qwen-32B が全ベンチマークで優位
  • AIME 2024 : 72.6%(ディスティル)vs 47.0% (RL)
  • MATH-500 : 94.3%(ディスティル)vs 91.6% (RL)
  • LiveCodeBench : 57.2%(ディスティル)vs 40.2% (RL)

主要な知見

  • 大規模モデルの推論パターン転移が効果的
  • 小規模モデルへの直接 RL は計算コストが高く効率が低下
  • 推論能力向上には強力なベースモデルと大規模 RL が重要

Table 6

4.2. Unsuccessful Attempts

失敗事例に関する報告と分析を 2 つの主要アプローチに分類して説明

プロセス報酬モデル (PRM) の限界

  • 一般的な推論における細粒度ステップ定義が困難
  • 中間ステップの正確性評価に課題
  • モデルベース PRM によるリワードハッキングが発生
  • 報酬モデルの再訓練による計算リソースとパイプライン複雑化
  • トップ N レスポンスのリランクには有効だが大規模 RL での利点が限定的

モンテカルロツリーサーチ (MCTS) の課題

  • AlphaGo や AlphaZero からインスパイアされた手法
  • 回答を小部分に分割して解空間を探索する戦略
  • 事前学習済み value モデルで MCTS を誘導
  • 以下の問題点が発生 :
    1. チェスと較べてトークン生成探索空間が指数関数的に増大
    2. ローカル最適解に陥るリスク
    3. value モデルの精度が探索品質に直結
    4. トークン生成における反復的性能向上が困難

結論として MCTS は事前学習済み value モデルと組み合わせた推論時の性能向上には有効だが自己探索による反復的性能向上は困難

5. Conclusion, Limitations, and Future Work

研究成果と今後の展望を以下にまとめる

主要成果 :

  • 純粋な RL で推論能力向上を実現した DeepSeek-R1-Zero を開発
  • コールドスタートデータと反復型 RL を組み合わせ DeepSeek-R1 を構築
  • OpenAI-o1-1217 と同等の性能達成
  • 800K サンプルを用いた小規模モデルへのディスティレーションを実現

今後の研究課題 :

一般的能力の向上

  • Function calling, マルチターン対話、ロールプレイ能力強化
  • 長い CoT を活用したタスク拡張

言語混在問題

  • チャイナ語と英語以外の言語で混在問題が発生
  • 他言語クエリーでも英語での推論と応答が発生
  • 将来のアップデートで対応予定

プロンプト最適化

  • プロンプト感度高さ対応
  • Few-shot プロンプトでパフォーマンス低下
  • ゼロショット設定による最適化を推奨

ソフトウェアエンジニアリング

  • 評価時間長期化による RL 効率低下
  • ソフトウェアエンジニアリングタスクで限定的な改善
  • 非同期評価導入による効率化を検討中

Discussion