DeepSeek-R1 で学ぶ「LLM × 大規模強化学習」の世界
本記事では、arXiv:2501.12948 で紹介されている DeepSeek-R1 シリーズについて、テックブログ形式で解説します。大規模言語モデル(LLM)の推論能力を高めるため、SFT(教師あり微調整)なしでRLを適用したり、少量のデータでコールドスタートしてから多段階の強化学習を行ったりするアプローチは、従来の常識を超える大きな挑戦です。さらに、その学習成果を 蒸留(Distillation) して小型モデルにも推論力を継承する手法も含め、モデル開発の新しい可能性を提示しています。
導入(背景・概要)
近年のLLMは急速に発展し、単なる雑談や文章生成だけでなく、数学や論理パズル、プログラミングなどの高度な推論タスクでも高い精度を実現しています。ただ、既存の強化学習フレームワーク(たとえばChatGPTにおけるRLHF)では、「大量のSFTデータと組み合わせること」が暗黙の前提になっていました。
一方、DeepSeek-R1 は大規模強化学習(Reinforcement Learning: RL)の使い方を見直し、
- SFTを全く行わず、事前学習モデル(Baseモデル)に直接RLをかける(DeepSeek-R1-Zero)
- 数千件程度の「読みやすいロングCoT」でコールドスタートしてから多段階RLを行う(DeepSeek-R1)
といった手法を試み、高い推論能力を獲得することを実証しています。さらに得られた知識を**蒸留(Distillation)**によって小型モデル(QwenやLlamaなど)にも伝搬し、圧倒的な性能アップを実現しているのが特徴です。
本文(詳細解説)
DeepSeek-R1の全体像
DeepSeek-R1シリーズには、主に以下2つのバリエーションがあります。
-
DeepSeek-R1-Zero
- SFTを一切行わず、Baseモデルにいきなり大規模RLを適用する。
- 一見無謀に思えますが、報酬設計を工夫(正解判定やフォーマット評価など)することで、Baseモデルが自ら推論能力を身につけ、数理・コーディングタスクで大きく性能向上。
- ただし混在言語や可読性の低さなどの課題が確認される。
-
DeepSeek-R1
- コールドスタート用の少量SFTデータ(長いCoTを含む高品質サンプル)で微調整し、さらに大規模RLを行う多段階のパイプライン。
- 数理・論理・プログラミングなど、正解不正解が明確なタスクでRL報酬を与えつつ、言語整合性や安全性なども考慮。
- 最終的にOpenAI系の最新モデルに匹敵する高性能を示し、かつ読みやすい回答形式を保持する。
蒸留(Distillation)
上記で完成した DeepSeek-R1 を 教師モデル とし、その出力(問題→Chain of Thought→回答)を「正解ラベル付きデータ」として小型モデルに学習させると、QwenやLlamaなどの Denseモデルでも驚くほど高い推論性能を実現できます。パラメータを単純に小さくして圧縮を狙うだけでなく、大規模モデルが獲得した「高度な思考スタイル」を別アーキテクチャに移す点が革新的です。
まとめたQ&A:DeepSeek-R1の重要ポイント
ここからは、DeepSeek-R1に関してよく挙がる疑問点を「より広いテーマ」でまとめて解説します。
1. 事前学習モデルの選択と規模について
DeepSeek-R1の論文には、DeepSeek-V3-Baseという独自モデルを中心としながらも、Qwen や Llama などのオープンソースモデルも登場します。なぜこれほど複数を使うかというと、アーキテクチャ(MoEかDenseか)やパラメータ数が推論性能や学習効率に大きく影響するからです。DeepSeek-R1自身はMoE型で実行時には約37Bのパラメータが活性化すると言われていますが、全エキスパートを含めると 600B を超える規模という言及もあり、単純な“パラメータ数”では比較しにくい面があります。
ただ、これほど大きいモデルを基盤とすることで、数学やコードなど複雑なタスクにも対応できる十分なキャパシティを持たせられるわけです。Qwen や Llama は Dense 構造のオープンソースモデルですが、後述の蒸留手法によって DeepSeek-R1 の推論能力を移すことが実験的に示されています。
2. なぜSFTなし(DeepSeek-R1-Zero)でも推論が成長するのか?
従来の常識では、「まず大量の教師ありデータを使ってSFTする」→「最後にRLで調整する」がLLM開発の定石でした。しかし DeepSeek-R1-Zero は、Baseモデルを純粋なRLだけで鍛え上げるという新しい道を切り拓いています。
ここでは、正解判定が自動化しやすい分野(数学問題、プログラミングのテストケースなど)を中心に大規模RLを行うことで、モデルが自律的に演繹・反省・計算ステップなどを学ぶ様子が観察されました。実際、AIME(数学競技)の成績が一気に上昇したり、回答途中に「待って、これは再計算しよう」など、いわゆる“Aha Moment”のような挙動を示したりします。
一方で、可読性が低い形式になる・出力言語が混在するといった人間目線での問題点が顕在化したため、次の段階(DeepSeek-R1)のコールドスタート戦略が導入されました。
3. コールドスタートと可読性向上の意義
SFTを行わないDeepSeek-R1-Zeroに比べ、DeepSeek-R1では「コールドスタート」データを使って、RL初期段階を安定させつつ、出力の読みやすさも確保する仕組みを用意しています。具体的には、数千件程度の「長いCoTを含む高品質サンプル」をDeepSeek-V3-Baseに与え、人間が期待する回答フォーマット(例えば数式は$記号やMarkdownで適切に囲む、ステップを段階的に示す等)をあらかじめ学習させておくわけです。
これによってRLが始まってすぐにカオスな状態に陥りにくくなり、また長い推論プロセスを書きつつも英語のみ / 中国語のみ / 日本語のみなど、言語が混在しにくい形で出力を整えられるというメリットがあります。最終的には、可読性だけでなく学習効率や安全性(不適切表現の排除)にも寄与し、OpenAIの大型モデルと並ぶか、それ以上のパフォーマンスを示すようになりました。
4. 大規模RLの具体的なやり方とデータ
DeepSeek-R1で大規模RLを適用する際、キモとなるのは報酬設計です。数学問題なら最終回答をパースして正解かどうかチェックし、プログラミングならテストケースを通して合否判定するなど、自動化可能な評価基準を使うことで多量のデータに対してRLを行えます。
さらに可読性報酬や言語整合性報酬など、モデル出力を「人間が扱いやすい形式」に寄せるための仕掛けも導入されています。大規模RLでは何度も学習ステップを繰り返すため、「このフォーマットだと読みやすい / 混在言語を減らすべき」といった制約を追加で与えると、モデルが自然にその方向へ出力を最適化するわけです。
5. 出力の品質チェックと再利用
RLの過程や、そのあとに出力される回答は膨大です。その中から「正しく読みやすい回答」だけを抽出して、追加SFTや最終モデルの学習に利用するフローが整えられています。数学・コーディングなら自動テストで正解を判定できるので大量の回答を機械的に選別し、フォーマット面はスクリプトで簡易検査したのち、一部を抜き取りで人間が確認します。
こうして「正確かつフォーマットが整っている」データを再度SFTに使うことで、モデルがさらに望ましい回答スタイルを定着させ、汎用性も高めていくしくみです。
6. 蒸留(Distillation)の狙いと方法
DeepSeek-R1 は大規模で強力ですが、推論の計算リソースも大きくなりがちです。そこで論文では、**DeepSeek-R1 が生成した回答(問題→CoT→答え)を「正解の学習サンプル」として用い、小型モデル(QwenやLlamaなど)を教師あり学習(SFT)**する「蒸留(Distillation)」を行っています。これによって、1.5B~32B、さらには70B程度のDenseモデルに対しても、DeepSeek-R1 と同等の高い推論精度に近づけることが確認されています。
従来「蒸留」は「モデルサイズを小さくして高速化を狙う」イメージが強かったかもしれませんが、本研究ではMoE型とDense型の違いを超えて知識を移転するという目的も大きいです。大規模RLの成果をより広範なユーザが活用しやすい形で落とし込む、という発想が今後さらに進むと考えられます。
まとめ(考察・結論)
-
DeepSeek-R1-Zero
- SFTなしでRLをするという大胆な実験により、数学・プログラミングのタスクで大幅な性能向上を実現。
- モデルが自発的に長い思考・反省を行う “Aha Moment” 的な挙動も観察され、大きな可能性を示唆。
- 一方で、言語混在や可読性の問題が顕在化。
-
DeepSeek-R1
- 「数千件のコールドスタート用データ」でベースを整え、複数ラウンドのRL+追加SFTを組み合わせる多段階パイプライン。
- 出力の可読性・安全性も高まり、既存の大型モデルに匹敵する結果を複数ベンチマークで記録。
-
蒸留(Distillation)
- DeepSeek-R1 の出力(CoT付き回答)を教師データとして小型モデルを再学習。
- 大規模RLの成果を別アーキテクチャや小~中規模モデルに転移できる点が非常に有用で、簡易な手順でも推論能力が大幅に向上。
-
今後の展望
- コールドスタートデータの用意方法や多言語対応、ソフトウェア工学向けタスクへの適用、検証に要する計算コストなど、課題は依然として多い。
- とはいえ、「大量の教師ありデータが必須」とされていた常識を覆し、純粋なRLでも広範な推論力を獲得できるという実証は、LLM研究に新しい道を示す大きなインパクトがある。
総じて、DeepSeek-R1 の論文は、LLMにおける強化学習の新境地を切り拓く内容といえるでしょう。SFTなしでここまでできるのか、さらに多段階RL+蒸留という枠組みをどう発展させるかといった問いは、今後の研究や産業応用において大きな可能性を持ちます。興味のある方は、ぜひ arXiv:2501.12948 をご一読ください。
Discussion