💡

DeepSeek-V3.2 徹底解説：DSA（DeepSeek Sparse Attention）と巨大RLを使った“次世代モデル構築法”を

2025/12/02に公開

 はじめに2024〜2025年に登場したDeepSeek-V3.2は、計算効率と推論能力、特にエージェントタスクや長い推論（Chain-of-Thought）に強みを持つ大規模言語モデル（LLM）です。
本記事ではV3.2がどのようにして高い性能と効率を両立したのか、特に次の3点にフォーカスして解説します。

DSA（DeepSeek Sparse Attention） による計算量の削減

巨大規模の強化学習（RL） に基づく専門モデルの育成

スペシャリスト → ジェネラリストへの蒸留 という新しい訓練方法
大学生でも「なぜ必要で、どう動くのか」が理解できるよう順番に説明します。

 1. DSA（DeepSeek Sparse Attention）とは何か？
 1.1 そもそも長文処理はなぜ重いのか？通常のAttention（Scaled Dot-Product Attention）は、
新しいトークン（クエリ）
過去のすべてのトークン（キー）
の組み合わせを全て計算します。
計算量は O(N²)

コンテキストが128K（=128,000トークン）にもなると、普通は絶対に計算しきれません。

 1.2 DSA の基本アイデアDSAは次のアイデアで計算量を大幅削減します。
「本当に必要な過去トークンだけを選んでAttentionを計算すればいい」
この「必要なトークンの絞り込み」を担当するのが Lightning Indexer です。

 1.3 Lightning Indexer の仕組みLightning Indexer は、通常のAttentionとは別に以下を行います：
低次元のクエリ・キー
通常: 2048次元
Indexer: 64次元
さらに FP8 (8bit) の低精度で計算

→ とても軽い！
各過去トークンとのスコアを高速に計算
Top-k（例：2048トークン）だけを選ぶ
つまり：
(1) 全トークン 128,000
       ↓  Indexerで高速スクリーニング
(2) Top-k 2,048
       ↓  通常のAttention（高精度）
(3) 出力
こうして

性能はほぼ維持したまま、計算量を1桁以上削減できます。

 2. DSA はどうやって学習されたのか？通常、Sparse Attentionは「最初から疎」にすると学習が難しいという欠点があります。

（疎すぎて勾配が伝わらない）
DeepSeekは次の2段階学習でこれを突破しました。

 2.1 第1段階：Lightning Indexer の“初期化”Indexer以外のパラメータはすべて凍結（freeze）
通常のAttentionを使って、各ヘッドのスコアを合計 → 正規化して確率分布にする
この確率分布を 教師 として、

KLダイバージェンス最小化でIndexorを初期化
量：10Bトークンほど
要するに：
「まずはDense Attentionを真似して動けるようにする」

 2.2 第2段階：モデル全体を疎構造に適応させる訓練次に行うのが「本番のSparse Attention学習」です。
Indexerの入力は detach()

→ Indexerは自分の損失（KL）だけで更新
モデル本体は通常のLM損失で学習
Indexerは main attention と整合するように微調整
量：1Tトークン
こうして、密→疎へスムーズに移行する仕組みが完成します。

 2.3 効果：推論コストが激減その結果：

prefill（最初の読み込み）: 8〜10倍の高速化

decode（生成中）: 数倍高速化
128Kコンテキストでも現実的に動くようになります。

 3. Post-training：巨大規模の強化学習で「スペシャリスト」を育成ここからがDeepSeek-V3.2の最大の特徴です。

 3.1 スペシャリストをまず作る同じ基礎モデルから、複数の専門モデル（スペシャリスト）を作ります。
数学特化
エージェント特化
推論（thinking）特化
高速回答（non-thinking）特化

など
それぞれのモデルを、**巨大規模の強化学習（RL）**で育てます。
これをGRPOベースのRLで実施。

 3.2 thinking / non-thinking モードを分ける各スペシャリストは次の2つのモードのデータを生成します：

thinkingモード

　長いChain-of-Thought（CoT）を含む

non-thinkingモード

　直接回答する高速動作モード

 3.3 複数スペシャリスト → ジェネラリストへの蒸留最終的には：
全てのスペシャリストが生成したデータを使って

　一つの最終モデルに蒸留する
これで「何でもできるけど高性能」なGeneralistが完成します。

 4. 巨大RLを成功させるための3つの工夫RLを数千ステップ回すと、多くの問題が起きます。
DeepSeekは以下の3つの防御策で乗り越えました。

 4.1 発散防止のための「巻き戻し & 再開」定期的にモデルを評価
もし急に性能が落ちたら

　→ 重みを巻き戻す

　→ 学習率を下げて再開

 4.2 方策更新の正則化（偏り防止）前向き計算に正則化を加えて、

「特定の方策に偏りすぎる」ことを防ぐ。

 4.3 報酬ハック対策として複数評価を切り替える同じ評価基準ばかり使うと

モデルが“裏技”を覚えてしまう。
→ 複数の評価セットをランダム切り替え

→ 報酬ハックが困難になる
これは人間の試験対策でも同じです。

 5. reasoning を含むRLでエージェント性能を強化ツール利用や複雑なタスクでは reasoning が必要です。
DeepSeekのRLは：
thinking（長い推論）
non-thinking（高速回答）
エージェントタスク
アライメント項目
を1つのRL枠組みで同時学習します。
これにより「推論もできるしタスク実行も上手い」モデルになります。

 6. Speciale：数学能力に特化したスーパースペシャリストSpecialeは数学・証明能力に特化したスペシャリスト。
特徴：
reasoningデータのみで訓練
RL時の長さ罰則（length penalty）緩和
他の能力と引き換えに数学力に全振り
結果として：
IMO/IOI 金メダル級性能

GPT-5 を超える数学性能
を示しました。

 7. 性能まとめ
V3.2本体

多くのベンチマークでフロンティアモデル級

Speciale

数学領域でトップ性能（GPT-5超え）

 8. コメント：DeepSeekの挑戦と意義最後に、今回のアプローチの意義をまとめます。

 8.1 “リスクの高い挑戦”を通して到達した成果DSAもスペシャリスト→蒸留も、とても難しい手法。

設定ファイルを見ると、さまざまな試行錯誤の痕跡がある。

 8.2 DSA の現実的な利点と今後の課題効率化は成功
ただし、key/valueは保持が必要
prefillは大きく速くなるが decode は数倍

→ 今後も「長文処理の圧縮」は課題

 8.3 学習専用モデルと推論専用モデルという構想学習は dense attention でやる
推論は sparse attention でやる

という分業スタイルは今後さらに重要になる。

 まとめDeepSeek-V3.2の凄さは以下に集約されます：
DSAで長文処理の計算量を劇的に削減
巨大RLで専門モデルを育ててから蒸留する新手法
thinking/non-thinking を同時に扱える高いエージェント性能
数学特化モデル（Speciale）は人類最高レベルに到達
これらは従来の延長ではなく、

「思い切った飛躍」

によって実現されたものです。
今後は

「学習はdense」「推論はsparse」

という役割分担がさらに進む可能性が高く、

長文効率化と高性能化の両立がますます追求されるでしょう。

はじめに

1. DSA（DeepSeek Sparse Attention）とは何か？

1.1 そもそも長文処理はなぜ重いのか？

1.2 DSA の基本アイデア

1.3 Lightning Indexer の仕組み

2. DSA はどうやって学習されたのか？

2.1 第1段階：Lightning Indexer の“初期化”

2.2 第2段階：モデル全体を疎構造に適応させる訓練

2.3 効果：推論コストが激減

3. Post-training：巨大規模の強化学習で「スペシャリスト」を育成

3.1 スペシャリストをまず作る

3.2 thinking / non-thinking モードを分ける

3.3 複数スペシャリスト → ジェネラリストへの蒸留

4. 巨大RLを成功させるための3つの工夫

4.1 発散防止のための「巻き戻し & 再開」

4.2 方策更新の正則化（偏り防止）

4.3 報酬ハック対策として複数評価を切り替える

5. reasoning を含むRLでエージェント性能を強化

6. Speciale：数学能力に特化したスーパースペシャリスト

7. 性能まとめ

8. コメント：DeepSeekの挑戦と意義

8.1 “リスクの高い挑戦”を通して到達した成果

8.2 DSA の現実的な利点と今後の課題

8.3 学習専用モデルと推論専用モデルという構想

まとめ

Discussion