DeepSeek-R1: 強化学習による大規模言語モデルの推論能力獲得を見る

Gondo

2025/12/02に公開

 はじめにルミナイR&Dチームの権藤です。

本記事では、DeepSeek社が発表した「DeepSeek-R1」という大規模言語モデルについて解説します。

このモデルは、数学やコーディングなどの複雑な推論タスクにおいて、OpenAIのo1モデルに匹敵する性能を達成し、大きな注目を集めました。
論文リンク: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

 本記事で学べること
強化学習のみで推論能力を獲得する手法: 従来の教師あり学習を使わずに、モデルが自己学習で推論パターンを獲得する革新的なアプローチ

シンプルな報酬設計の有効性: 複雑な報酬モデルではなく、ルールベースのシンプルな報酬で高性能を実現

小規模モデルへの知識蒸留: 大規模モデルの推論能力を効率的に小型モデルに転移させる技術

 概要
 DeepSeek-R1とは？DeepSeek-R1は、DeepSeek-V3-Baseモデルを基盤として、大規模な強化学習(RL)によって推論能力を大幅に向上させた言語モデルです。

本論文では、以下の3つのモデルバリエーションが提案されています：

DeepSeek-R1-Zero: 教師あり学習(SFT)を使わず、強化学習のみで訓練されたモデル

DeepSeek-R1: 少量のデータによるSFTとRLを組み合わせたモデル

蒸留版小型モデル: DeepSeek-R1の推論能力を1.5B〜70Bパラメータの小型モデルに転移

 なぜ注目されているのか？DeepSeek-R1は、OpenAI-o1-1217とほぼ同等の性能を達成しながら、その開発手法とモデルがオープンソース化されています。

特に、教師あり学習なしで純粋な強化学習だけでも強力な推論能力を獲得できることを実証した点は、AI研究において重要となっています。

 核心技術：なぜDeepSeek-R1は高い推論能力を獲得できたのか
 1. 効率的な学習アルゴリズム：GRPO計算コストを削減するため、Group Relative Policy Optimization (GRPO)を採用。

GRPOの特徴：

Criticモデル不要: 通常のRLで必要となる、policyモデルと同規模のcriticモデルを使用しない

コスト効率: 大幅な計算リソースの削減

 2. シンプルかつ効果的な報酬設計DeepSeek-R1はルールベースのシンプルな報酬システムを採用しています：
正確性報酬(Accuracy Rewards)
応答が正しいかを評価
数学問題など明確な答えがあるタスクでは、最終的な答えが正しいかどうかを自動判定
プログラミング問題では、コンパイラを使ってテストケースで検証
フォーマット報酬(Format Rewards)
モデルに思考過程を<think>と</think>タグで囲むよう指示
構造化された出力形式を強制
この設計の利点は：

報酬ハッキングの回避: ニューラル報酬モデルでは大規模RLの過程で報酬ハッキングが発生する可能性があるが、ルールベース報酬ではこの問題を回避

学習パイプラインの簡素化: 報酬モデルの再訓練が不要で、追加の計算リソースが不要

 3. 「Aha Moment」：自己発見による推論パターンの創発DeepSeek-R1-Zeroの訓練中に観察された最も興味深い現象の一つが「Aha Moment」です。

モデルは明示的な指示なしに、自らの解法を振り返り、より良いアプローチを探索する行動を自然に学習しました。
論文中の例：

Wait, wait. Wait. That’s an aha moment I can flag here.

Let’s reevaluate this step-by-step to identify if the correct sum can be · · ·
訳：

待って、待って。ここで「アハモーメント」だ。

ステップバイステップで再評価してみよう...

 4. SFTによる性能向上DeepSeek-R1-Zeroは優れた性能を示しましたが、以下の課題がありました：
可読性の低さ
言語混在（複数言語が混ざった出力）
これらの問題を解決するため、DeepSeek-R1では数千件の長いChain-of-Thought(CoT)データを収集してSFTを実施しました。
SFTの利点：
可読性の向上
各応答の最後に要約を含む読みやすいパターンを設計
ポテンシャル
人間の事前知識を注意深く設計したパターンで組み込むことで、DeepSeek-R1-Zeroを上回る性能を実現

 DeepSeek-R1の訓練パイプラインDeepSeek-R1の開発は、以下の4段階のパイプラインで構成されています：

 Stage 1: SFT数千件の長いCoTデータでDeepSeek-V3-Baseをファインチューニングし、RL訓練の初期モデルを準備

 Stage 2: 推論特化型RL数学、コーディング、科学、論理推論などの推論集約型タスクに焦点を当てた大規模RL訓練を実施。

言語一貫性報酬も導入し、言語混在問題を軽減。

 Stage 3: リジェクションサンプリングとSFTRLで収束したチェックポイントを使用して、約60万件の推論関連サンプルと約20万件の非推論サンプルを収集。

これらのデータでDeepSeek-V3-Baseを2エポック訓練。

 Stage 4: 全シナリオ対応RL推論タスクと一般タスクの両方を含む多様なプロンプト分布でRLを実施。

有用性(helpfulness)と無害性(harmlessness)を同時に最適化。

 実験結果：ベンチマーク性能
 DeepSeek-R1の性能DeepSeek-R1は推論タスクでOpenAI-o1-1217に匹敵する性能を達成：
数学タスク
AIME 2024: 79.8% (OpenAI-o1-1217: 79.2%)
MATH-500: 97.3% (OpenAI-o1-1217: 96.4%)
CNMO 2024: 78.8%
コーディングタスク
Codeforces: 96.3% (OpenAI-o1-1217: 96.6%)
LiveCodeBench: 65.9% (OpenAI-o1-1217: 63.4%)
SWE Verified: 49.2% (OpenAI-o1-1217: 48.9%)
知識タスク
MMLU: 90.8% (OpenAI-o1-1217: 91.8%)
GPQA Diamond: 71.5% (OpenAI-o1-1217: 75.7%)
一般タスク
AlpacaEval 2.0: 87.6%
ArenaHard: 92.3%

 蒸留モデルの高い性能DeepSeek-R1から小型モデルへの単純な蒸留により、印象的な結果が得られました：

DeepSeek-R1-Distill-Qwen-7B: GPT-4o-0513のような非推論モデルを全体的に上回る

DeepSeek-R1-Distill-Qwen-14B: すべての評価指標でQwQ-32B-Previewを上回る

DeepSeek-R1-Distill-Qwen-32B: 多くのベンチマークでo1-miniを上回る

 蒸留と強化学習どちらが効果的か？Qwen-32B-Baseに対して大規模RLを適用したDeepSeek-R1-Zero-Qwen-32Bは、QwQ-32B-Previewと同等の性能を達成しました。

しかし、DeepSeek-R1から蒸留したDeepSeek-R1-Distill-Qwen-32BはすべてのベンチマークでDeepSeek-R1-Zero-Qwen-32Bより大幅に優れた性能を示しました。
結論:
より強力なモデルから小型モデルへの蒸留は優れた結果をもたらす
小型モデルで同等の性能を達成するための大規模RLは膨大な計算リソースを必要とする
モデルをより賢くするには、より強力なベースモデルとより大規模なRLが必要

 失敗から学ぶ：うまくいかなかったアプローチ
 Process Reward Model (PRM)PRMの3つの主要な限界：
一般的な推論における細粒度のステップを明示的に定義するのが困難
中間ステップの正しさを判定するのが難しい
モデルベースのPRMは報酬ハッキングを引き起こす

 Monte Carlo Tree Search (MCTS)主な課題:
各ノードの最大拡張数を制限すると、モデルが局所最適解に陥る
価値モデルの訓練が本質的に困難
推論中の性能向上は可能だが、反復的な性能向上は大きな課題

 限界と今後の方向性論文では、以下の限界が率直に述べられています：

一般能力: 推論能力以外の創造性や対話の一貫性などの面での性能低下

計算コスト: 強化学習のコストが非常に高く大量の計算資源が必要

不安定: RLによる訓練の不安定さや報酬ハッキングなどの課題

 論文を読んで：DeepSeek-R1が示すものDeepSeek-R1は、大規模言語モデルの推論能力向上において、以下の重要な知見をもたらしました：

純粋なRLの可能性: 教師あり学習なしでも、適切に設計されたRLだけで強力な推論能力を獲得できる

シンプルさな報酬設計: 複雑な報酬モデルよりも、シンプルなルールベース報酬が効果的

創発的能力: モデルは自律的に高度な推論戦略を発見

効率的な知識転移: 蒸留により、大規模モデルの推論能力を小型モデルに効率的に転移可能
この研究は、より強力で効率的な推論モデルの開発に向けた重要な一歩であり、今後のAI研究において大きな影響を与えることが期待されます。

 参考文献本記事は以下の論文に基づいています：

DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948.
【現在採用強化中です！】
AIエンジニア
PM/PdM
戦略投資コンサルタント
▼代表とのカジュアル面談URL

https://pitta.me/matches/VCmKMuMvfBEk

ルミナイ - 産業データをLLM Readyにするための技術ブログPublication

ルミナイ株式会社は「産業に光を、技術に力を」を掲げ、すべての産業データをLLM Readyにすることを目指して、製造・物流・エネルギー業向けにLLMソリューションを提供している東大発のAIスタートアップです。このブログでは、産業での活用を見据えたLLM・RAG・AIエージェント・VLMの実装戦略・手法を紹介します。

はじめに

本記事で学べること

概要

DeepSeek-R1とは？

なぜ注目されているのか？

核心技術：なぜDeepSeek-R1は高い推論能力を獲得できたのか

1. 効率的な学習アルゴリズム：GRPO

2. シンプルかつ効果的な報酬設計

3. 「Aha Moment」：自己発見による推論パターンの創発

4. SFTによる性能向上

DeepSeek-R1の訓練パイプライン

Stage 1: SFT

Stage 2: 推論特化型RL

Stage 3: リジェクションサンプリングとSFT

Stage 4: 全シナリオ対応RL

実験結果：ベンチマーク性能

DeepSeek-R1の性能

蒸留モデルの高い性能

蒸留と強化学習どちらが効果的か？

失敗から学ぶ：うまくいかなかったアプローチ

Process Reward Model (PRM)

Monte Carlo Tree Search (MCTS)

限界と今後の方向性

論文を読んで：DeepSeek-R1が示すもの

参考文献

Discussion