DeepSeek-R1: オープンソースで実現したo1級の言語モデル
はじめに
2025年1月、DeepSeek社が画期的な言語モデル「DeepSeek-R1」を発表しました。このモデルは、強化学習を中心とした革新的なアプローチにより開発され、OpenAI-o1-1217と同等の性能を達成しながら、完全なオープンソース化を実現しました。
DeepSeek-R1の特筆すべき点は、純粋な強化学習による訓練から始まり、段階的な改良を重ねることで高い性能を実現したことです。特に数学や科学的推論のタスクにおいて優れた成績を収めており、AIIMEやMATH-500などのベンチマークで印象的な結果を示しています。
さらに、このモデルは1.5Bから70Bまでの様々なサイズで提供され、MITライセンスによる公開により、研究目的から商用利用まで幅広い活用が可能となっています。本記事では、DeepSeek-R1の技術的特徴、性能評価、実用面での特徴について詳しく解説していきます。
モデルの概要と特徴
主要な2つのバリエーション
- DeepSeek-R1-Zero
- 教師あり微調整(SFT)を使用せず、純粋な強化学習で訓練
- 自然な推論能力の獲得に成功
- AIME 2024での成績が15.6%から71.0%まで向上
- 課題:可読性の低さや言語の混在
- DeepSeek-R1
- コールドスタートデータと多段階訓練を組み合わせた改良版
- OpenAI-o1-1217と同等の性能を実現
- より読みやすく、実用的な出力を生成
ベンチマーク性能
主要なベンチマークでの結果:
- AIME 2024: 79.8% (Pass@1)
- MATH-500: 97.3% (Pass@1)
- GPQA Diamond: 71.5% (Pass@1)
- Codeforces: 96.3percentile
- MMLU: 90.8% (Pass@1)
- SWE-bench Verified: 49.2% (Resolved)
公開リソース
- オープンソースモデル&技術報告書(MITライセンス)
- 6つのモデル(1.5B, 7B, 8B, 14B, 32B, 70B)
- QwenとLlamaをベースとした実装
技術的特徴
強化学習アプローチ
- Group Relative Policy Optimization (GRPO)の採用
- 批評モデルを使用せず、グループスコアからベースラインを推定
- 精度と形式の両面を考慮した報酬モデリング
訓練プロセス
- コールドスタート:数千のChain-of-Thought(CoT)データによる初期訓練
- 推論指向の強化学習:数学、コーディング、科学的推論に特化
- リジェクションサンプリングとSFT:一般的な能力の強化
- シナリオ全般での強化学習:最終的な性能向上
利用方法とアクセス
Webインターフェース
スマホアプリ(iOS, Android)
iOS
Android
API利用
- モデル指定:
model=deepseek-reasoner
- 料金体系:
- 入力トークン(キャッシュヒット): $0.14/百万トークン
- 入力トークン(キャッシュミス): $0.55/百万トークン
- 出力トークン: $2.19/百万トークン
ローカル環境で動かす
oolamaなどを利用して環境を構築
$ docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
$ docker exec -it ollama ollama run deepseek-r1:1.5b
pulling manifest
pulling aabd4debf0c8... 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 1.1 GB
pulling 369ca498f347... 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 387 B
pulling 6e4c38e1172f... 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 1.1 KB
pulling f4d24e9138dd... 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 148 B
pulling a85fe2a2e58e... 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 487 B
verifying sha256 digest
writing manifest
success
>>> /
deepseek R1(1.5B)の回答例
$ >>> Find the prime numbers up to 100
<think>
Hi! I'll help find all prime numbers up to 100. Let me start by listing numbers from 2 to 100 and eliminate their multiples.
Prime Numbers Up to 100
Starting with 2, which is the only even prime number:
2, 3, 5, 7, 11, 13, 17, 19, 23, 29,
31, 37, 41, 43, 47, 53, 59, 61, 67, 71,
73, 79, 83, 89, 97
Let me double-check to make sure none of these numbers are divisible by any smaller primes.
For example:
- 2: Prime.
- 3: Prime. Divisible only by 1 and itself.
- 5: Prime. Divisible only by 1 and itself.
- 7: Prime. Divisible only by 1 and itself.
- And so on for each number in the list.
Yes, all numbers listed are prime because they have no divisors other than 1 and themselves.
Let me make sure I didn't miss any primes in this range:
2, 3, 5, 7, 11, 13, 17, 19, 23, 29,
31, 37, 41, 43, 47, 53, 59, 61, 67, 71,
73, 79, 83, 89, 97
That's 25 prime numbers. Let me count again to confirm:
1: 2
2: 3
3: 5
4: 7
5: 11
6: 13
7: 17
8: 19
9: 23
10: 29
11: 31
12: 37
13: 41
14: 43
15: 47
16: 53
17: 59
18: 61
19: 67
20: 71
21: 73
22: 79
23: 83
24: 89
25: 97
Yes, that's 25 prime numbers up to 100. I think I've got it!
小さいモデル(1.5B/8B)はローカルマシン(メモリ16GB)でも動きました。
流石にマシンスペックが手持ちのPC(MacBookAir)だと低いので回答には時間がかかりました。
ライセンスと利用条件
- MITライセンスによる提供
- モデルの重みとAPI出力の自由な活用が可能
- 商用利用、蒸留(Distillation)、微調整が許可
今後の課題と展望
改善が必要な領域
- 機能呼び出しや複雑な役割演技などの一般的なタスク
- 多言語対応の強化
- プロンプトエンジニアリングの最適化
- ソフトウェアエンジニアリングタスクの性能向上
まとめ
DeepSeek-R1は、強化学習を中心とした革新的なアプローチで開発された言語モデルです。純粋な強化学習による「DeepSeek-R1-Zero」と、コールドスタートデータを組み合わせた「DeepSeek-R1」の2つのバリエーションを提供し、特に数学や科学的推論において優れた性能を示しています。
OpenAI-o1-1217と同等の性能を持ちながら、完全にオープンソース化されており、MITライセンスでの公開により商用利用を含む幅広い活用が可能です。1.5Bから70Bまでの様々なサイズのモデルが提供され、APIを通じた利用も整備されています。
機能呼び出しや多言語対応など、いくつかの課題は残されていますが、オープンソースコミュニティによる継続的な改善が期待され、AIの民主化に向けた重要な進展となることが期待されます。
追記
2025/01/22 iOSアプリのリンクに誤りがあったため修正しました。
Discussion
iOSアプリのリンクが間違っています。
正しいリンクは以下の通りです。
ご指摘ありがとうございます。
リンクを修正いたしました。