📝
DeepSeek-R1 : Incentivizing Reasoning Capability in LLMs via RL

2025/01/29に公開
https://arxiv.org/abs/2501.12948

 要約DeepSeek-R1-Zero
教師あり学習なしで強化学習のみで訓練された世界初のモデル
AIME 2024 で 71% の正解率を達成
ただし可読性の低さや言語の混合といった課題がある
DeepSeek-R1
R1-Zeroの課題を解決するため少量の教師データと段階的な訓練を導入
OpenAI-o1-1217 と同等の性能を達成
数学（AIME 2024 で 79.8%）やコーディング（Codeforces で上位 96.3%）で特に高性能
小規模モデルへ知識蒸留
DeepSeek-R1 の知識を 1.5B-70B の小規模モデルに蒸留
32B モデルは多くのベンチマークで OpenAI-o1-mini を上回る性能を達成

 AbstractDeepSeek-R1-Zero の特徴 :
教師あり微調整 (SFT) を行わず大規模強化学習 (RL) のみで訓練
自然に強力な推論能力を獲得
課題として可読性の低さと言語混合問題
DeepSeek-R1 の特徴 :
上記課題解決のためコールドスタートデータとマルチステージ訓練を導入
OpenAI-o1-1217 と同等の性能を達成
研究成果 :
DeepSeek-R1-Zero と DeepSeek-R1 および 6 つの小規模モデル (1.5B, 7B, 8B, 14B, 32B, 70B) をオープンソース化
Qwen と Llama をベースに推論能力を蒸留
推論タスクにおける強化学習の有効性を実証

 1. Introduction現状の課題 :
ポストトレーニングはフルパイプラインの重要要素に
OpenAI の o1 シリーズが Chain-of-Thought 推論プロセスの長さを拡張
テストタイム拡張の効率化は未解決の課題として残存
既存アプローチ :
プロセスベース報酬モデル
強化学習
モンテカルロツリーサーチやビームサーチ

これらは OpenAI o1 シリーズと同等の性能達成には至らず
本研究のアプローチ :
純粋な強化学習による言語モデルの推論能力向上を探求
DeepSeek-V3-Base をベースモデルとして使用
GRPO フレームワークで推論性能を改善
成果 :
DeepSeek-R1-Zero :
AIME 2024 のスコアを 15.6% から 71.0% に改善
マジョリティーボーティングで 86.7% まで向上
OpenAI-o1-0912 と同等の性能を実現
DeepSeek-R1 :
コールドスタートデータとマルチステージパイプラインを導入
可読性と言語混合の問題を解決
OpenAI-o1-1217 と同等の性能を達成
小規模モデルへの展開 :
Qwen2.5-32B への直接蒸留で RL 適用より良好な結果
14B モデルが QwQ-32B-Preview を上回る性能を実現
32B / 70B モデルが密モデルのベンチマークで記録を更新

 1.1. Contributionsポストトレーニング : 大規模強化学習によるベースモデルの改良
DeepSeek-R1-Zero の開発
SFT を使用せず純粋な RL でモデルを訓練
自己検証、リフレクション、長い CoT を生成
RL のみで LLM の推論能力獲得を初めて実証
DeepSeek-R1 開発パイプライン
2 つの RL ステージを導入し推論パターンを発見
2 つの SFT ステージで推論・非推論機能を習得
モデル品質を向上させる業界標準的なパイプラインを確立
ディスティレーション : 小規模モデルの能力向上
大規模モデルの推論パターン蒸留
小規模モデルへの RL 適用より高性能を実現
オープンソース化で研究コミュニティーに貢献
汎用的な密モデルへ適用
DeepSeek-R1 で生成したデータを用いて微調整
7B モデルで QwQ-32B-Preview を凌駕
32B モデルで AIME 2024 72.6%, MATH-500 94.3% を達成
Qwen2.5 / Llama3 系の 1.5B から 70B までをオープンソース化

 1.2. Summary of Evaluation Results推論タスク
AIME 2024 で Pass@1 79.8% を達成し OpenAI-o1-1217 を上回る
MATH-500 で 97.3% を記録し他モデルを大きく凌駕
コーディング系で Codeforces 上位 96.3% に到達
SWE-bench では DeepSeek-V3 より若干の性能向上を確認
知識ベース
MMLU で 90.8%、MMLU-Pro で 84.0%, GPQA Diamond で 71.5% を達成
DeepSeek-V3 を大幅に上回るが OpenAI-o1-1217 には若干劣る
SimpleQA でも DeepSeek-V3 を上回り教育タスクでの競争力を実証
OpenAI-o1 と同様のトレンドを示す
その他タスク
クリエイティブ文章生成、一般 QA、編集、要約などで高い性能を実現
AlpacaEval 2.0 で 87.6%, ArenaHard で 92.3% の勝率を記録
非試験指向クエリーへの対応力を実証
長文理解タスクで DeepSeek-V3 を大幅に上回る性能を達成

 2. Approach
 2.1. Overview従来手法 :
モデル性能向上に大量の教師データを使用
教師あり学習に強く依存
本研究の新規性 :
強化学習による性能向上
SFT なしでも推論能力を大幅に改善可能
少量のコールドスタートデータで更なる性能向上を実現

提案手法の 3 つの柱 :
DeepSeek-R1-Zero
ベースモデルに直接 RL を適用
SFT データを使用せずに訓練
DeepSeek-R1
数千の長い Chain-of-Thought 例で微調整
その後 RL を適用
小規模モデルへのディスティレーション
DeepSeek-R1 の推論能力を小規模な密モデルへ転移
計算効率と性能のバランスを追求

 2.2. DeepSeek-R1-Zero: Reinforcement Learning on the Base Model背景 :
推論タスクにおける RL の有効性を先行研究で確認
従来の手法は教師データへの依存度が高くデータ収集に多大なコスト
研究目標 :
教師データを使用しない LLM の推論能力獲得を検証
純粋な RL プロセスによる自己進化に焦点
アプローチ :
RL アルゴリズム概要説明
実験結果プレゼンテーション

 2.2.1. Reinforcement Learning AlgorithmGroup Relative Policy Optimization (GRPO) を用いた強化学習手法の詳細を説明
アルゴリズムの特徴 :
通常の RL で必要なクリティックモデルを不要に
グループスコアからベースラインを推定
ポリシーモデルと同サイズのモデルを省略可能
GRPO の計算プロセス :
各質問 q に対し古いポリシー \pi_{\theta_{old}} から G 個の出力をサンプリング
以下の目的関数を最大化 :
ポリシーモデル \pi_\theta の最適化
クリップ付き重要度サンプリング

KL ダイバージェンスによる正則化

アドバンテージ計算 :
グループ内の報酬 \{r_1, r_2, ..., r_G\} を使用
平均と標準偏差で正規化
グループ単位でのパフォーマンス評価を実現
特徴的なパラメーター :

\epsilon : クリッピング範囲を制御

\beta : KL 正則化の強さを調整
目的関数を含む GRPO の主要な数式を以下に示す
(1) 目的関数 :

\mathcal J_{GRPO}(\theta) = \mathbb E\left[q \sim P(Q), \{o_i\}^G_{i=1} \sim \pi_{\theta_{old}}(O|q)\right] \frac{1}{G} \sum^G_{i=1} \left(\min\left(\frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}A_i, \text{clip}\left(\frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}, 1-\varepsilon, 1+\varepsilon\right)A_i\right) - \beta D_{KL}(\pi_\theta||\pi_{ref})\right)
(2)
D_{KL}(\pi_\theta||\pi_{ref}) = \frac{\pi_{ref}(o_i|q)}{\pi_\theta(o_i|q)} - \log\frac{\pi_{ref}(o_i|q)}{\pi_\theta(o_i|q)} - 1
(3)
A_i = \frac{r_i - \text{mean}(\{r_1,r_2,\cdots,r_G\})}{\text{std}(\{r_1,r_2,\cdots,r_G\})}
ここで

\epsilon と \beta はハイパーパラメーター

A_i はグループ内報酬から計算されるアドバンテージ

r_i は各出力に対応する報酬

 2.2.2. Reward Modeling精度報酬 (Accuracy rewards) :
回答の正確性を評価
数学問題では確定的な結果をボックス内に記載し規則ベースで検証
LeetCode 問題は事前定義済みテストケースを用いたコンパイラーで評価
フォーマット報酬 (Format rewards) :
思考プロセスを <think> と </think> タグ間に記述するよう誘導
フォーマット順守の度合いを評価
報酬モデル選択理由 :
ニューラル報酬モデルは大規模 RL でリワードをハッキングされるリスク
報酬モデルの再訓練は追加リソースが必要
訓練パイプラインが複雑化するリスク

 2.2.3. Training TemplateDeepSeek-R1-Zero の訓練テンプレートを以下の要素で構成
基本構造 :
ユーザーの質問に対する会話形式
アシスタントが思考プロセスと回答を提供
タグ構造:

<think> と </think> : 推論プロセス

<answer> と </answer> : 最終回答
設計方針 :
構造的フォーマットのみを制約
リフレクティブ推論や特定の問題解決戦略を強制しない
モデルの自然な進化プロセスを観察可能に設定
Table 1 に示すテンプレートを使い訓練中に具体的な推論問題で prompt を置換

 2.2.4. Performance, Self-evolution Process and Aha Moment of DeepSeek-R1-ZeroPerformance のポイント :
AIME 2024 ベンチマークで pass@1 スコアが 15.6% から 71.0% に向上
マジョリティｖボーティングで 86.7% まで改善し OpenAI-o1-0912 に匹敵
教師なし学習で有効な推論能力を獲得
自己進化プロセス :
思考時間が訓練過程で一貫して増加
トークン生成数が数百から数千に拡大
リフレクションや代替アプローチ探索が自然発生
外部調整なしで複雑な推論タスクへの対応力を獲得
Aha Moment の特徴 :
中間バージョンで問題に対する思考時間配分を学習
初期アプローチを再評価する能力を獲得
モデルと研究者双方にとって重要な発見
モデルの課題:
可読性の低さ
言語混合の問題
DeepSeek-R1 開発による人間フレンドリーな改善が必要

 2.3. DeepSeek-R1 : Reinforcement Learning with Cold Start研究課題 :
高品質コールドスタートデータによる推論性能向上と収束加速可能性
明確な Chain of Thought (CoT) と優れた汎用性を両立したユーザフレンドリーモデル開発
解決手法 :

4 段階で構成される DeepSeek-R1 訓練パイプライン構築を提案
主な特徴 :
少量の高品質データを活用
ユーザビリティーと推論能力を同時に強化
段階的な訓練プロセスで性能を最適化

 2.3.1. Cold Startデータ収集アプローチ :
Few-shot プロンプトで長い CoT を例として使用
モデルに詳細な回答と検証、リフレクションを生成させる
DeepSeek-R1-Zero の出力を可読形式に変換
人手でポストプロセス処理を実施
利点 :
可読性向上
複数言語混在問題を解消
Markdown フォーマットで回答をハイライト
reader-friendly なパターンを設計
|special_token| タグで推論プロセスとサマリーを分離
ポテンシャル向上
人間の知見を活用したパターン設計
DeepSeek-R1-Zero を上回る性能を実現
反復的な訓練による継続的改善
実装 :
数千のコールドスタートデータを収集
DeepSeek-V3-Base の Fine-tuning に使用
RL の開始点として活用

 2.3.2. Reasoning-oriented Reinforcement Learningコールドスタートデータによる Fine-tuning 後に大規模 RL トレーニングを適用
トレーニング対象 :
コーディング
数学
科学
論理推論

など明確な解を持つタスク
言語一貫性を改善 :
RL トレーニング中に言語一貫性リワードを導入
CoT 内のターゲット言語の単語比率で評価
アブレーション実験で性能低下を確認したが人間の選好に合わせて採用
最終リワード構成 :
推論タスク精度
言語一貫性リワード

この 2 つを直接合算
トレーニングプロセス :
Fine-tuning したモデルに RL を適用
推論タスクで収束するまでトレーニングを継続

 2.3.3. Rejection Sampling and Supervised Fine-Tuning推論指向 RL 収束後のデータ生成とモデル Fine-tuning プロセス
SFT データ生成 :
RL チェックポイントから Rejection Sampling を実施
Rule-based と Generative な報酬モデルを併用
DeepSeek-V3 で予測と Ground-truth を判定
品質フィルタリング :
混合言語の Chain-of-thought を除外
長いパラグラフとコードブロックを除外
各プロンプトから複数レスポンスを生成し正解のみ保持
推論関連で約 60 万サンプルを収集
非推論データ :
DeepSeek-V3 パイプラインと SFT データセットを再利用
文章生成や Factual QA などで約 20 万サンプル
単純クエリーには CoT を付与せず直接回答
訓練プロセス :
合計約 80 万サンプルで DeepSeek-V3-Base を 2 エポック Fine-tuning
様々なタスクで汎用的な能力を獲得

 2.3.4. Reinforcement Learning for all Scenarios第 2 RL フェーズの実装内容を以下のポイントで説明
モデル調整手法 :
推論能力向上と人間の選好に合わせた RL トレーニング実施
ルールベース報酬と報酬モデルを組み合わせて使用
報酬設計 :
推論データ : DeepSeek-R1-Zero と同様のルールベース報酬
一般データ : 報酬モデルで人間の選好を評価
DeepSeek-V3 パイプラインを基にプロンプト分布を設定
評価フォーカス :
有用性評価 : サマリーのみを対象
安全性評価 : 推論プロセスとサマリー全体を確認
最終目標 :
推論性能とユーザビリティーを両立
有用性と安全性を考慮した応答生成
人間の選好に沿った出力最適化

 2.4. Distillation : Empower Small Models with Reasoning CapabilityDeepSeek-R1 から小規模モデルへのディスティレーション手法を説明
ディスティレーションプロセス :
DeepSeek-R1 を教師モデルとして 80 万サンプルを生成
Qwen および Llama ベースのモデルへ Fine-tuning を実施
ベースモデル :
Qwen2.5-Math-1.5B
Qwen2.5-Math-7B
Qwen2.5-14B
Qwen2.5-32B
Llama-3.1-8B
Llama-3.3-70B-Instruct
選定理由と特徴 :
Llama-3.3 は Llama-3.1 より推論性能が高い
異なるモデルサイズでの有効性を検証
SFT のみを適用し RL は実施せず
研究コミュニティーへの貢献 :
シンプルなディスティレーション手法の効果を実証
小規模モデルでも高い推論能力を実現
追加 RL による性能向上余地を示唆

 3. Experimentベンチマーク評価
MMLU, MMLU-Redux, MMLU-Pro, C-Eval, CMMLU などで知識評価を実施
SimpleQA での事実確認能力の検証
GPQA Diamond で深い推論能力を評価
SWE-bench Verified で実装能力を検証
AlpacaEval 2.0 と Arena-Hard で生成能力を評価
評価プロンプト
simple-evals フレームワークで MMLU, DROP, GPQA Diamond を評価
MMLU-Redux では Zero-Eval プロンプトをゼロショット設定で使用
MMLU-Pro, C-Eval, CLUE-WSC はフューショットからゼロショット形式に変更
その他のデータセットは提供元のプロトコルに準拠
コード / 数学評価
HumanEval-Mul で 8 つのプログラミング言語を評価
LiveCodeBench は CoT 形式で評価
Codeforces は 10 個の Div.2 コンテストで評価
AIDER 関連ベンチマークは diff 形式で評価
ベースライン
DeepSeek-V3, Claude-Sonnet-3.5-1022, GPT-4o-0513 と比較
OpenAI-o1-mini, OpenAI-o1-1217 の公式報告値を使用
小規模モデルは QwQ-32B-Preview と比較
評価設定
最大生成長 32,768 トークン
グリーディーデコーディングの問題を考慮し pass@k 評価を採用
サンプリング温度 0.6, top-p 0.95 で k 個の応答を生成
AIME 2024 は 64 サンプルでマジョリティー投票も実施

 3.1. DeepSeek-R1 EvaluationDeepSeek-R1 の総合評価結果を主要分野別に報告
教育系タスク評価
MMLU で 90.8%, MMLU-Pro で 84.0%, GPQA Diamond で 71.5% を達成
STEM 関連で大幅な性能向上
FRAMES で高い評価を獲得し文書解析能力を実証
SimpleQA で DeepSeek-V3 を上回るもチャイナ語版では安全性 RL の影響で性能低下
フォーマット / 生成タスク評価
IF-Eval でフォーマット指示への追従能力を確認
AlpacaEval2.0 と ArenaHard で優れた文章生成能力を実証
平均トークン数は ArenaHard で 689, AlpacaEval 2.0 で 2,218 文字と簡潔
数学 / コーディングタスク評価
AIME 2024 と MATH-500 で OpenAI-o1-1217 と同等以上の性能を達成
LiveCodeBench と Codeforces で強力な推論能力を発揮
エンジニアリング系タスクでは OpenAI-o1-1217 に劣後も SWE Verified で同等の性能を確認
今後の改善点
エンジニアリング系タスクの RL データ量を増加し性能向上を目指す

 3.2. Distilled Model Evaluation蒸留モデルのパフォーマンスを参照モデルと比較評価
主要なベースライン比較
GPT-4o-0513 と Claude-3.5-Sonnet を上回る性能を実現
DeepSeek-R1-7B は全指標で GPT-4o-0513 より優位
DeepSeek-R1-14B は QwQ-32B-Preview を全ベンチマークで凌駕
DeepSeek-R1-32B / 70B は o1-mini に近い性能を達成
個別評価結果
DeepSeek-R1-7B : AIME 2024 で 55.5%, MATH-500 で 92.8% を記録
DeepSeek-R1-32B : AIME 2024 で 72.6%, LiveCodeBench で 57.2% を達成
全サイズのモデルで従来の同規模モデルを大幅に改善
追加考察
SFT のみでこの性能を実現
RL 適用でさらなる性能向上が期待可能
シンプルな蒸留手法の有効性を実証

 4. Discussion
 4.1. Distillation v.s. Reinforcement Learning小規模モデルへの推論能力転移に関する実験分析結果を報告
RL vs ディスティレーション実験
Qwen-32B-Base に 10K ステップの大規模 RL を適用
数学、コード、STEM データで訓練し DeepSeek-R1-Zero-Qwen-32B を生成
QwQ-32B-Preview と同等の性能を達成
比較結果
DeepSeek-R1-Distill-Qwen-32B が全ベンチマークで優位
AIME 2024 : 72.6%（ディスティル）vs 47.0% (RL)
MATH-500 : 94.3%（ディスティル）vs 91.6% (RL)
LiveCodeBench : 57.2%（ディスティル）vs 40.2% (RL)
主要な知見
大規模モデルの推論パターン転移が効果的
小規模モデルへの直接 RL は計算コストが高く効率が低下
推論能力向上には強力なベースモデルと大規模 RL が重要

 4.2. Unsuccessful Attempts失敗事例に関する報告と分析を 2 つの主要アプローチに分類して説明
プロセス報酬モデル (PRM) の限界
一般的な推論における細粒度ステップ定義が困難
中間ステップの正確性評価に課題
モデルベース PRM によるリワードハッキングが発生
報酬モデルの再訓練による計算リソースとパイプライン複雑化
トップ N レスポンスのリランクには有効だが大規模 RL での利点が限定的
モンテカルロツリーサーチ (MCTS) の課題
AlphaGo や AlphaZero からインスパイアされた手法
回答を小部分に分割して解空間を探索する戦略
事前学習済み value モデルで MCTS を誘導
以下の問題点が発生 :
チェスと較べてトークン生成探索空間が指数関数的に増大
ローカル最適解に陥るリスク
value モデルの精度が探索品質に直結
トークン生成における反復的性能向上が困難

結論として MCTS は事前学習済み value モデルと組み合わせた推論時の性能向上には有効だが自己探索による反復的性能向上は困難

 5. Conclusion, Limitations, and Future Work研究成果と今後の展望を以下にまとめる
主要成果 :
純粋な RL で推論能力向上を実現した DeepSeek-R1-Zero を開発
コールドスタートデータと反復型 RL を組み合わせ DeepSeek-R1 を構築
OpenAI-o1-1217 と同等の性能達成
800K サンプルを用いた小規模モデルへのディスティレーションを実現
今後の研究課題 :
一般的能力の向上
Function calling, マルチターン対話、ロールプレイ能力強化
長い CoT を活用したタスク拡張
言語混在問題
チャイナ語と英語以外の言語で混在問題が発生
他言語クエリーでも英語での推論と応答が発生
将来のアップデートで対応予定
プロンプト最適化
プロンプト感度高さ対応
Few-shot プロンプトでパフォーマンス低下
ゼロショット設定による最適化を推奨
ソフトウェアエンジニアリング
評価時間長期化による RL 効率低下
ソフトウェアエンジニアリングタスクで限定的な改善
非同期評価導入による効率化を検討中