🙄

DeepSeek-V3.2 技術解説をしてみました

2025/12/02に公開

 概要DeepSeek-V3.2 は以下の 3 本柱で構成されるモデルである：

DSA（DeepSeek Sparse Attention） による長コンテキスト効率化

大規模強化学習（GRPOベース） による複合能力の最適化

スペシャリストモデル群 → 汎用モデルへの蒸留 という新しい後処理学習（post-training）パイプライン
本記事では、これらのモジュールがどのように機能し、なぜ従来モデルを超える性能を達成できたのかを専門的観点から解説する。

 1. DSA（DeepSeek Sparse Attention）
 1.1 動機：長コンテキストのボトルネック従来の Multi-Head Attention (MHA) は

O(N²) の計算を伴うため、128K 以上のコンテキストでは GPU メモリ・計算量が爆発する。
近年は以下のような Sparse Attention が提案されている：
Local Attention (Longformer)
Hash-based Attention (Reformer)
Low-rank Approx. (Linformer)
MQA/GQA（ヘッド共有）
ただし、いずれも
汎用性の欠如
長距離依存の欠落
訓練安定性の低下（疎すぎて勾配が流れない）
といった課題がある。
DSAはこれを「別モジュールによる動的トークン選択」で解消した。

 1.2 Lightning Indexer による Top-k Selection
 Indexer の入力と出力Indexer は以下を計算する補助ネットワークである。
入力：低次元 Query（64-d FP8）
出力：過去トークンとの類似度スコア → Top-k（2048）を返す

 特徴

通常 Attention
Lightning Indexer


2048-d FP16/FP32
64-d FP8

全トークンとの full dot-product
近似スコア計算

O(Nd)
O(N × 64)（極めて軽量）

低次元かつ低精度で計算されるため推論コストを劇的に削減できる。

 1.3 Sparse Attention の実行フロー新規クエリが入力
Indexer が過去の鍵列に対して 64-d の類似度を計算
Top-k（例 2048 トークン）だけを選択
選ばれたトークンに対して 通常の Attention（2048-d） を実行
これにより：

prefill（KVキャッシュ作成） → 8〜10倍高速

decode（生成時） → 数倍高速
長距離依存性も維持

 1.4 DSA 学習プロセスの詳細Sparse Attention は「最初から疎」にすると学習できない。

DeepSeek は以下の2段階方式で解決した。

 （1）Dense → Sparse への Soft Alignment（10B トークン）まず、Dense Attention を“模した”Indexorを作る：
モデル本体のパラメータをすべて凍結（freeze）
全 attention ヘッドのスコアを合算 → 正規化

→ Dense Attention の真の分布 p_dense(i|q) を得る
Lightning Indexer が出す分布 p_index(i|q) と KL を取る
[

\mathcal{L}{KL} = D{KL}( p_{\text{dense}} | p_{\text{index}} )

]
Dense の挙動を近似できる Indexer の初期化

 （2）Sparse-aware Training（1T トークン）次に Sparse Attention を導入し、本番の適応学習を行う：
Indexer の入力は detach（勾配を流さない）
Indexer は KL のみで学習
メインモデルは LM loss のみで学習
Top-k に入った候補に対して KL を計算して整合性を維持
これにより Dense → Sparse への移行が破綻なく進行する。

 2. Post-training の全体構成DeepSeek-V3.2 の Post-training は極めて独特で、以下の 3 段階から成る：
スペシャリストの大規模強化学習（RL）
thinking / non-thinking モードデータの自動生成
蒸留（Distillation）により単一の Generalist を形成
この構成は Anthropic や OpenAI の手法とは大きく異なる。

 3. スペシャリスト学習：巨大 RL（GRPO ベース）
 3.1 GRPO（Generalized Reinforcement Policy Optimization）PPO 系の拡張で、LLM の長距離勾配問題に適応させた手法と考えられる。

GRPO の特徴は：
トークンレベルでの advantage 推定
生成長のスケールに応じた正則化
policy collapse の抑制
特に reasoning タスクでは生成長（CoT の長さ）が不安定になりやすく、

GRPO の正則化が必要になる。

 3.2 マルチオブジェクティブ報酬DeepSeek は 1 つの RL プロセスに 3 種類の報酬を統合した：
reasoning 能力（数学・論理推論）
エージェントタスク（ツール利用）
アライメント（安全性・一貫性）
一般にこれらは相互干渉しやすいが、GRPO により破滅的忘却を抑制して同時最適化を実現。

 3.3 発散防止のメカニズム長い RL 学習では divergence が起きやすい。

DeepSeek は以下の 3 つのメカニズム を導入した：

 (1) 定期評価による rollback性能が異常に低下 →

直前のチェックポイントに巻き戻し

→ 学習率を下げて再開

 (2) forward regularization方策が一方向に偏るのを防ぎ、 policy collapse を抑制。

 (3) 評価セットの切り替え報酬ハック（特定テストに最適化しすぎる）を防ぐため、

複数の評価基準をランダムで切り替える。

 4. thinking / non-thinking モードのデュアル学習スペシャリストは自動的に以下の 2 種類のデータを生成する：

thinking モード：長い推論経路（CoT）付き

non-thinking モード：即答用の短い出力
この二つは構造的に異なるため、

通常は1つのモデルに学習させると競合する。
DeepSeekはこれをマルチモード蒸留で解決している。

 5. 蒸留（Distillation）による Generalist の構築最終段階では：
すべてのスペシャリストが生成したデータ（thinking/non-thinking を含む）
RL による高度なタスクデータ
reasoning-heavy / agent-heavy データ
を **単一モデルに集約（蒸留）**する。
蒸留は以下に近い概念：
ensemble→single model
mixture-of-experts の hard distillation
teacher-student 学習

 メリット1モデルでマルチ能力を保存
inference コストを抑えつつ高性能化
スペシャリストの破滅的忘却を防止

 6. Speciale（数学特化モデル）Speciale は数学証明・数理推論に特化したスペシャリスト。

 特徴RL 時に length penalty を緩和（長い証明を許容）
reasoning データのみで学習
他能力を犠牲にして数学性能を最大化する方針
結果、以下を達成：
IMO/IOI Gold Level
GPT-5 を超える数学性能
DeepSeek-Math v2 の研究成果を統合
数学特化データの密度が高く、一般モデルよりサンプル効率が高い。

 7. ベンチマーク結果（概括）
 DeepSeek-V3.2 Generalist多数の標準ベンチマークで Frontier Model と同等の性能
論理・推論タスクで高得点
128K コンテキストの効率的処理

 Speciale（数学モデル）GPT-5 を上回る数学性能
自動証明タスクで SOTA
数学問題のエージェント解法に強い

 8. 技術的インプリケーションと考察
 8.1 Sparse Attention の現実的適用DSAのアプローチは、従来の Sparse Attention 研究における課題：
長距離依存性の欠落
訓練不安定性
を「Dense→Sparse の漸進的移行」で解消した点が革新的。

 8.2 学習モデルと推論モデルの分離Dense で学習 → Sparse で推論、という構造は

今後の LLM の標準になる可能性。

 8.3 Post-training における蒸留の強化スペシャリストを育ててから蒸留する手法は

「学習可能性」と「推論効率」の双方を最適化する。
OpenAI や Anthropic も近い手法を非公開で採用している可能性がある。

 8.4 長文処理の次の課題DSA は効率を大きく改善したが：
prefill は劇的だが decode は数倍
KVキャッシュは依然大きい
真の「文脈圧縮」にはまだ改善の余地がある

 まとめDeepSeek-V3.2 の革新点は以下に整理できる：
Sparse Attention を安定的に訓練する技術（DSA）
巨大 RL を破綻させずに運用するメカニズム
スペシャリスト→ジェネラリストの大規模蒸留
数学特化モデルによる世界最高レベルの推論性能
特に「Dense から Sparse への転換」「大規模 RL の制御」「マルチモード蒸留」の組み合わせは、LLM の Post-training の新しい設計指針を示している。

通常 Attention	Lightning Indexer
2048-d FP16/FP32	64-d FP8
全トークンとの full dot-product	近似スコア計算
O(Nd)	O(N × 64)（極めて軽量）

概要

1. DSA（DeepSeek Sparse Attention）

1.1 動機：長コンテキストのボトルネック

1.2 Lightning Indexer による Top-k Selection

Indexer の入力と出力

特徴

1.3 Sparse Attention の実行フロー

1.4 DSA 学習プロセスの詳細

（1）Dense → Sparse への Soft Alignment（10B トークン）

（2）Sparse-aware Training（1T トークン）

2. Post-training の全体構成

3. スペシャリスト学習：巨大 RL（GRPO ベース）

3.1 GRPO（Generalized Reinforcement Policy Optimization）

3.2 マルチオブジェクティブ報酬

3.3 発散防止のメカニズム

(1) 定期評価による rollback

(2) forward regularization

(3) 評価セットの切り替え

4. thinking / non-thinking モードのデュアル学習

5. 蒸留（Distillation）による Generalist の構築

メリット

6. Speciale（数学特化モデル）

特徴

7. ベンチマーク結果（概括）

DeepSeek-V3.2 Generalist

Speciale（数学モデル）

8. 技術的インプリケーションと考察

8.1 Sparse Attention の現実的適用

8.2 学習モデルと推論モデルの分離

8.3 Post-training における蒸留の強化

8.4 長文処理の次の課題

まとめ

Discussion