🙄

DeepSeek-V3.2 技術解説をしてみました

に公開

概要

DeepSeek-V3.2 は以下の 3 本柱で構成されるモデルである:

  1. DSA(DeepSeek Sparse Attention) による長コンテキスト効率化
  2. 大規模強化学習(GRPOベース) による複合能力の最適化
  3. スペシャリストモデル群 → 汎用モデルへの蒸留 という新しい後処理学習(post-training)パイプライン

本記事では、これらのモジュールがどのように機能し、なぜ従来モデルを超える性能を達成できたのかを専門的観点から解説する。

1. DSA(DeepSeek Sparse Attention)

1.1 動機:長コンテキストのボトルネック

従来の Multi-Head Attention (MHA) は
O(N²) の計算を伴うため、128K 以上のコンテキストでは GPU メモリ・計算量が爆発する。

近年は以下のような Sparse Attention が提案されている:

  • Local Attention (Longformer)
  • Hash-based Attention (Reformer)
  • Low-rank Approx. (Linformer)
  • MQA/GQA(ヘッド共有)

ただし、いずれも

  • 汎用性の欠如
  • 長距離依存の欠落
  • 訓練安定性の低下(疎すぎて勾配が流れない)

といった課題がある。

DSAはこれを「別モジュールによる動的トークン選択」で解消した。


1.2 Lightning Indexer による Top-k Selection

Indexer の入力と出力

Indexer は以下を計算する補助ネットワークである。

  • 入力:低次元 Query(64-d FP8)
  • 出力:過去トークンとの類似度スコア → Top-k(2048)を返す

特徴

通常 Attention Lightning Indexer
2048-d FP16/FP32 64-d FP8
全トークンとの full dot-product 近似スコア計算
O(Nd) O(N × 64)(極めて軽量)

低次元かつ低精度で計算されるため推論コストを劇的に削減できる。


1.3 Sparse Attention の実行フロー

  1. 新規クエリが入力
  2. Indexer が過去の鍵列に対して 64-d の類似度を計算
  3. Top-k(例 2048 トークン)だけを選択
  4. 選ばれたトークンに対して 通常の Attention(2048-d) を実行

これにより:

  • prefill(KVキャッシュ作成) → 8〜10倍高速
  • decode(生成時) → 数倍高速
  • 長距離依存性も維持

1.4 DSA 学習プロセスの詳細

Sparse Attention は「最初から疎」にすると学習できない。
DeepSeek は以下の2段階方式で解決した。


(1)Dense → Sparse への Soft Alignment(10B トークン)

まず、Dense Attention を“模した”Indexorを作る:

  • モデル本体のパラメータをすべて凍結(freeze)
  • 全 attention ヘッドのスコアを合算 → 正規化
    Dense Attention の真の分布 p_dense(i|q) を得る
  • Lightning Indexer が出す分布 p_index(i|q) と KL を取る

[
\mathcal{L}{KL} = D{KL}( p_{\text{dense}} | p_{\text{index}} )
]

Dense の挙動を近似できる Indexer の初期化


(2)Sparse-aware Training(1T トークン)

次に Sparse Attention を導入し、本番の適応学習を行う:

  • Indexer の入力は detach(勾配を流さない)
  • Indexer は KL のみで学習
  • メインモデルは LM loss のみで学習
  • Top-k に入った候補に対して KL を計算して整合性を維持

これにより Dense → Sparse への移行が破綻なく進行する。


2. Post-training の全体構成

DeepSeek-V3.2 の Post-training は極めて独特で、以下の 3 段階から成る:

  1. スペシャリストの大規模強化学習(RL)
  2. thinking / non-thinking モードデータの自動生成
  3. 蒸留(Distillation)により単一の Generalist を形成

この構成は Anthropic や OpenAI の手法とは大きく異なる。


3. スペシャリスト学習:巨大 RL(GRPO ベース)

3.1 GRPO(Generalized Reinforcement Policy Optimization)

PPO 系の拡張で、LLM の長距離勾配問題に適応させた手法と考えられる。
GRPO の特徴は:

  • トークンレベルでの advantage 推定
  • 生成長のスケールに応じた正則化
  • policy collapse の抑制

特に reasoning タスクでは生成長(CoT の長さ)が不安定になりやすく、
GRPO の正則化が必要になる。


3.2 マルチオブジェクティブ報酬

DeepSeek は 1 つの RL プロセスに 3 種類の報酬を統合した:

  1. reasoning 能力(数学・論理推論)
  2. エージェントタスク(ツール利用)
  3. アライメント(安全性・一貫性)

一般にこれらは相互干渉しやすいが、GRPO により破滅的忘却を抑制して同時最適化を実現。


3.3 発散防止のメカニズム

長い RL 学習では divergence が起きやすい。
DeepSeek は以下の 3 つのメカニズム を導入した:

(1) 定期評価による rollback

性能が異常に低下 →
直前のチェックポイントに巻き戻し
→ 学習率を下げて再開

(2) forward regularization

方策が一方向に偏るのを防ぎ、 policy collapse を抑制。

(3) 評価セットの切り替え

報酬ハック(特定テストに最適化しすぎる)を防ぐため、
複数の評価基準をランダムで切り替える。


4. thinking / non-thinking モードのデュアル学習

スペシャリストは自動的に以下の 2 種類のデータを生成する:

  • thinking モード:長い推論経路(CoT)付き
  • non-thinking モード:即答用の短い出力

この二つは構造的に異なるため、
通常は1つのモデルに学習させると競合する。

DeepSeekはこれをマルチモード蒸留で解決している。


5. 蒸留(Distillation)による Generalist の構築

最終段階では:

  1. すべてのスペシャリストが生成したデータ(thinking/non-thinking を含む)
  2. RL による高度なタスクデータ
  3. reasoning-heavy / agent-heavy データ

を **単一モデルに集約(蒸留)**する。

蒸留は以下に近い概念:

  • ensemble→single model
  • mixture-of-experts の hard distillation
  • teacher-student 学習

メリット

  • 1モデルでマルチ能力を保存
  • inference コストを抑えつつ高性能化
  • スペシャリストの破滅的忘却を防止

6. Speciale(数学特化モデル)

Speciale は数学証明・数理推論に特化したスペシャリスト。

特徴

  • RL 時に length penalty を緩和(長い証明を許容)
  • reasoning データのみで学習
  • 他能力を犠牲にして数学性能を最大化する方針

結果、以下を達成:

  • IMO/IOI Gold Level
  • GPT-5 を超える数学性能
  • DeepSeek-Math v2 の研究成果を統合

数学特化データの密度が高く、一般モデルよりサンプル効率が高い。


7. ベンチマーク結果(概括)

DeepSeek-V3.2 Generalist

  • 多数の標準ベンチマークで Frontier Model と同等の性能
  • 論理・推論タスクで高得点
  • 128K コンテキストの効率的処理

Speciale(数学モデル)

  • GPT-5 を上回る数学性能
  • 自動証明タスクで SOTA
  • 数学問題のエージェント解法に強い

8. 技術的インプリケーションと考察

8.1 Sparse Attention の現実的適用

DSAのアプローチは、従来の Sparse Attention 研究における課題:

  • 長距離依存性の欠落
  • 訓練不安定性

を「Dense→Sparse の漸進的移行」で解消した点が革新的。

8.2 学習モデルと推論モデルの分離

Dense で学習 → Sparse で推論、という構造は
今後の LLM の標準になる可能性。

8.3 Post-training における蒸留の強化

スペシャリストを育ててから蒸留する手法は
「学習可能性」と「推論効率」の双方を最適化する。

OpenAI や Anthropic も近い手法を非公開で採用している可能性がある。

8.4 長文処理の次の課題

DSA は効率を大きく改善したが:

  • prefill は劇的だが decode は数倍
  • KVキャッシュは依然大きい
  • 真の「文脈圧縮」にはまだ改善の余地がある

まとめ

DeepSeek-V3.2 の革新点は以下に整理できる:

  1. Sparse Attention を安定的に訓練する技術(DSA)
  2. 巨大 RL を破綻させずに運用するメカニズム
  3. スペシャリスト→ジェネラリストの大規模蒸留
  4. 数学特化モデルによる世界最高レベルの推論性能

特に「Dense から Sparse への転換」「大規模 RL の制御」「マルチモード蒸留」の組み合わせは、LLM の Post-training の新しい設計指針を示している。

Discussion