【遂にo1級登場】DeepseekR1に関して徹底解説します。o1よりも30倍近くAPIのコストが下がりAI開発がより進化しそう
2024年の年末から今年にかけて中国産のLLMモデル「Deepseek(V3)」が話題でしたが、今回新しく「DeepseekR1」が登場しました。
V3では、4oやGemini・Claude3.5Sonnetを圧倒的なコストパフォーマンスで脅かす存在として大きく話題になりましたが
最近、o1系の「思考するモデル」の対抗馬として、圧倒的なパフォーマンスのR1が登場しました。このDeepseek R1に関して解説します。
v3については、以前記事にしたのでそれを見ていただくとします
筆者は、2025年のキーワードである「AIエージェント」を実現するための"脳"に当たる部分はo1系の思考モデルが処理をすることになり、実際の行動系を3.5Sonnetのようなモデルが処理することになると思っており、このo1モデルの質とコストの壁をどうクリアするかがかなり重要だと考えております。モデルの質が高くなるにつれて仕事の内容がよくなり、コストが低くなるたびに民主化されていき多く議論され発展しやすくなると思っています。今回のR1は、このコストの壁を1つ乗り越える意味で、大きな価値があると思っております
1. DeepSeek R1とは?
1-1. ざっくり概要
DeepSeek R1は、DeepSeek社が2024年末にリリースした大規模言語モデル「DeepSeek V3」の後継として登場した新モデルです。V3との大きな違いは、深い推論能力を実現するための大規模強化学習(RL)を取り入れている点にあります。
- 総パラメータ数はV3と同じ6710億(うち推論時は約370億が活性化)
- “思考をする” ための事後学習が加わっている
- オープンソース(MITライセンス)として公開、APIも利用可能
- 数学、論理推論、コード生成などでOpenAIのo1モデルに匹敵するベンチマークスコア
- 価格面でもOpenAIやAnthropicに比べて圧倒的に抑えられている
1-2. DeepSeek V3からの進化点
DeepSeek V3は、わずか数百万ドル規模・数カ月の学習期間でGPT-4相当の性能をうたって話題になりました。DeepSeek R1ではそこに大規模強化学習+追加の微調整ステップ(SFT、Distillationなど)が導入されています。これにより、
- 推論精度のさらに向上
- 自律的な思考プロセス(Chain-of-Thoughtの活性)
- エラー訂正や自己検証のスキル獲得
といった機能強化が期待できます。
1-3. “思考をするAI”とはどういう意味か
従来のLLMは大規模データで学習し、ユーザーからの入力(プロンプト)に対してパターンマッチングに基づくテキスト生成を行っていました。一方で「R1」のような“思考型”は、以下のようなステップを明示的・内在的に踏むことを目指します。
- 課題の理解:与えられた質問・命令をメタ的に把握する。
- 手段の検討:内部的に思考(Chain-of-Thought)を行い、必要に応じてツールや知識を使う。
- 仮説検証:生成結果を自ら評価し、適宜修正を加える。
- 最終回答:ユーザーに返答。必要なら複数ステップで再チャレンジ。
このように、単に確率分布から次単語を出すだけでなく、「問題を解く上での思考プロセス」が内部で強化学習により最適化されているのが “思考をするAI” のポイントです。
お忙しい方は動画でも解説しているので是非どうぞ!
2. なぜ“思考型”が注目されるのか?
2-1. 従来のLLM(学習・理解型)との違い
既存のChatGPTやClaude、Bing Chatなど多くのLLMは、膨大な学習データから得られたパターンを元に“それっぽい”文章を返していました。これは強力な仕組みですが、以下のような課題も残っていました。
- 論理的な長文推論が苦手:途中で矛盾が生じたり、答えが合わなくなることが多い。
- 自己言及的なフィードバックが弱い:一度出力を出すと、間違いを自動で訂正しづらい。
思考型LLMは、内部で論理的なステップを明示的に踏むことで、こうした課題を解消しやすくなります。
2-2. コード・数学・推論タスクでの大幅な性能向上
とりわけ、コード生成や数学問題などは、推論ステップが多く必要なタスクです。たとえば、競技プログラミングでは問題文を分析し、複数のファイルやソリューションを行き来しながら最適解にたどり着くプロセスが必要です。
従来のLLMだと、単発でコードを書いて終わりというケースが多かったのが、“思考型”LLMであればテスト結果やツール呼び出しを活用して、より正確・効率的にコードを完成させられる可能性が高まります。
3. OpenAI-o1級の性能? ベンチマークから見る実力
DeepSeek R1は公式サイトやコミュニティの検証によると、数学・コーディング・読解の主要ベンチマークでOpenAI-o1モデルに並ぶ、あるいは凌駕するスコアを叩き出しています。以下に、参考になる比較表を示します。
Note: 上表は一部推定値を含むため、実際の数値と完全には一致しない場合があります。
- MATH-500 (Pass@1):大学レベルの数学問題集。DeepSeek R1は90%後半の正答率に到達。
- LiveCodeBench (Pass@1):ソフトウェア開発に必要な複数ファイルの編集やテストを要する問題集。DeepSeek R1は65.9%と高得点。
- 価格面:DeepSeek R1は出力トークンあたり$2.19とされ、思考の質にもよるがo1どころか4oよりも安く圧倒的低価格と言える
このように、高性能を維持しつつも、OpenAIやAnthropicと比較すれば相対的に安価な料金設定を実現している点が注目されています。
【宣伝】AI開発に関する最新トピックや、初心者からプロ向けのTIPSをX(旧Twitter)で日々発信しています。「もっと知りたい」「最新情報を逃したくない」と感じていただけたら、ぜひフォローをお願いします!👇👇
X(twitter) 👉 https://x.com/AI_masaou
4. 大規模強化学習(RL)+SFT+蒸留モデルのしくみ
4-1. DeepSeek R1の学習手法の概要
DeepSeek R1は 強化学習(RL) を用いた事後トレーニングが特徴的です。一般的に、大規模言語モデルは以下のステップを経て開発されます。
- 事前学習(Pre-training):大規模コーパスを使い、“次の単語を予測”する形でモデルを作る。
- 教師あり微調整(SFT):人間が作成した品質の高い指示・応答ペアを使い、モデルを特定タスク向けに微調整する。
- RLHF(強化学習+人間のフィードバック):モデルの出力を人間が評価し、そのスコアを報酬としてモデルを更新する。
DeepSeek R1では、特にステップ3の強化学習を大規模に行ったとされています。しかも、従来のSFTなしにいきなりRLを施すというアプローチ(DeepSeek-R1-Zeroと呼ばれるバージョン)を試し、その後さらにSFTを加えたDeepSeek R1が完成したという流れです。この手法により、モデル内部の思考プロセス(Chain-of-Thought)や自己検証が促進されたと報告されています。
4-2. RLのみで“推論力”を獲得できる仕組み
通常、Chain-of-Thoughtを上手く扱うためには、SFTデータや人間のラベルがある程度必要とされてきました。ところが、DeepSeek-R1-ZeroはSFTを経ずにRLで推論力を得たと謳われています。これにより、
- 大規模データ収集コストの削減
- 未知のタスクや複雑な状況での自己修正
が可能になったとされています。ただし、完全にSFTを経ないモデルは、やや文章が読みにくい、意図しない多言語化が混ざるなどの課題も残っています。
4-3. なぜ蒸留モデルでも高性能を実現できるのか
DeepSeek社はR1から得られた推論パターンを小型モデルに蒸留(Distillation)することで、1.5B、7B、8B、14B、32B、70Bといった多様なサイズのモデルも公開しています。
- 通常、小型化すると性能が大幅に劣化しやすい
- 優れた推論データを蒸留に使うことで、比較的高性能を保てる
- たとえば32Bモデルでも、OpenAI-o1-miniに迫るベンチマークを達成
- 「家庭用GPUでも高度な推論力を試せる」という点がアピールされている
5. 料金とライセンス:本当に安いの?
5-1. 新料金プランの概要(APIコスト、キャッシュヒット時など)
DeepSeek R1のAPI料金は、公式ドキュメントによると以下のようになっています(2025年1月時点)。
項目 | 料金 |
---|---|
入力トークン(キャッシュヒット時) | $0.14 / 1M tokens |
入力トークン(キャッシュミス時) | $0.55 / 1M tokens |
出力トークン | $2.19 / 1M tokens |
コンテキスト長 | 128K tokens (最大) |
- キャッシュヒット:同一プロンプトが短時間に呼ばれた場合などに割引が適用される仕組み
- DeepSeek V3の出力トークンあたり$0.28と比べると、R1は7〜8倍ほど高め
- 大規模強化学習の開発コストや推論時のリソース増加が反映されている可能性
- とはいえ、o1どころか4oと比べても全然安いので圧倒的コスパであることは変わらない
5-2. MITライセンスのポイント
DeepSeek R1はMITライセンスで提供されており、
- 商用利用が可能
- 改変・再配布も自由
- 蒸留データの再利用も可能
といった、非常にオープンなスタンスをとっています。ただし、元となるモデルがQwen(アリババ)やLlama(Meta)に基づくものは、元ライセンスの影響を受ける場合があるので注意が必要です。
5-3. コストメリット・利用範囲の解説
DeepSeek V3より割高ではあるものの、OpenAI GPT-o1に比べると大幅に安価に済むケースが多いです。
特に、以下のようなニーズがある場合にR1の採用が検討されるでしょう。
- 高度な論理推論や複数ステップでのコード生成が必要
- 大容量のコンテキスト(128K tokens)を活かして長文ドキュメントの処理をしたい
- オープンソースモデルとして自社クラウドなどにセルフホスティングしたい(ライセンス的に許可されている)
6. 基本的なLLMワークフロー:Prompt ChainingやParallel化など
LLMを使ったワークフローにはさまざまなパターンがあります。DeepSeek R1も基本的には同様の設計が可能です。
- Prompt Chaining:タスクを複数のステップに分割し、それぞれの中間結果を次の入力にする仕組み。
- Parallel化:複数のモデル・複数のプロンプトを同時に走らせ、最後に結果をまとめる。
- Evaluator-Optimizerループ:モデルが自己評価や別モデルからのフィードバックを受け取り、改善を重ねる。
これらのワークフローはAIエージェントを構築する土台にもなります。
AIエージェントとしての導入:DeepSeek R1 × DeepSeek V3の使い分け
-
いつ“思考型”R1を使い、いつV3のような低コストモデルを使うべきか?
- R1が得意:大規模な推論(複数ステップ)、数学や複雑なコーディングの問題、長文分析。
- V3が得意:基本的な会話対応、シンプルな要約・分類、大量バッチ処理。
たとえば、ユーザーサポートチャットボットを作る場合、まずDeepSeek V3で一次対応を行い、難易度の高い問い合わせのみDeepSeek R1に回す構成が考えられます。この使い分けにより、コストを低減しつつ、複雑なタスクにも対応可能です。
OpenAIやAnthropicの例に見るエージェント化のパターン
OpenAIやAnthropicでも、LangChain等のフレームワークを使い、複数のモデルを組み合わせて“AIエージェント”を構築する事例が増えています。エージェントを構築する際は、LLMに動的な意志決定やツール選択を委ねるため、以下の点を検討する必要があります。
- ツール群の整備:Google検索APIやデータベースアクセス、コード実行環境など。
- プロンプト設計:ツールの使い方を明確に指示し、ゴールや失敗時の振る舞いを定義。
- ガードレール:誤用や無限ループを防ぐためのメカニズム。
DeepSeek R1は大容量コンテキストと高い推論力を持つため、柔軟なエージェント設計に向いていると言えます。
7. DeepSeek R1を使う際の注意点
7-1. セキュリティやプライバシーへの配慮
DeepSeek R1のような高機能モデルは、誤用されると個人情報や機密情報の漏洩が起こり得ます。MITライセンスで自由度が高いぶん、利用者側でのポリシー設定やアクセス制限が求められます。
7-2. 今後の展望:さらに進化する“思考型”LLM
R1はあくまで**“初代思考型”**ともいえる位置づけです。今後は、
- 推論ステップをさらに可視化・制御できるフレームワークの登場
- マルチモーダル対応(画像・音声など)
- 常時学習(オンライン学習)
など、エージェント化が加速していく可能性があります。
8. DeepSeek R1がもたらす業界インパクト
8-1. 他社モデル(Meta/Googleなど)との連携や相乗効果
DeepSeek R1はオープンソースであるため、MetaのLlamaシリーズやGoogleのGemini系モデルと比較しつつ、使い分けたり、相互に蒸留するようなシナジーも期待できます。たとえば、
- Llamaベースのモデルを既に使っている企業が、R1の蒸留モデルを取り込む
- Gemniの高速応答部分を組み合わせて、推論ステップを効率化する
といった連携が容易になるでしょう。
8-2. 将来的なAIエージェント化への期待
R1の思考プロセスは、ツール連携やワークフローの自動化によって、自主的にタスクを完了するAIエージェントへの発展を後押しします。具体的には、
- 顧客サポート:複数の社内データベースから情報を引き出し、適切な解決策を提示する。
- ソフトウェア開発:コードを修正し、テストを実行、エラーがあれば再修正するループ。
- 研究開発:論文を解析し、新規アイデアや実験計画を自動化。
これらのシステムが本格化すると、人間の介在が最小限でも高度な仕事をこなすエージェントが当たり前になる時代がやってくると考えられます。
9. まとめ:DeepSeek R1はどこまで使える?
9-1. コストを抑えながら高性能を活かすコツ
- 簡単なタスクはDeepSeek V3や他の低コストモデルに任せる
- 複雑な論理・コード・長文タスクはR1で対応
- APIのキャッシュヒット機能を活かして同じプロンプトの呼び出しコストを下げる
- 蒸留モデル(1.5B〜32Bなど)をローカル運用すれば、トークン課金を抑えつつ高度な推論力が得られる
9-2. R1が開く新しい可能性と残る課題
- 新しい可能性:AIエージェント化の加速、個人開発者でも高度な推論モデルを扱える時代の到来。
- 残る課題:思考プロセスが暴走したり、多言語混入・意味不明な回答が出るリスク。複雑性が増すほど安全対策やガードレールが重要になる。
DeepSeek R1は、AIモデル開発の歴史の中で “思考”と“性能” を両立させる新たなベンチマークを打ち立てた存在と言えます。最先端の論理推論やコーディング支援を必要とする場面では頼りになりますが、その分コストや運用上の難しさも増します。コストと利便性のバランスを取りながら、自社のユースケースに合った導入戦略を検討するのが賢明です。
以上、DeepSeek R1の概要から料金体系、活用方法、今後の展望に至るまでを解説しました。特にAIエージェントの文脈では、R1ならではの思考能力を活かした高度な自律的タスク処理が期待されます。
これからのLLM市場は、“思考型LLM”が主役になる可能性が高いです。ぜひこの機会にDeepSeek R1を試してみて、次世代のエージェント開発を体験してみてはいかがでしょうか。
ここまでお付き合いいただき、ありがとうございます。今後もAI分野の新しい活用方法や開発テクニックを、X(旧Twitter)やYoutubeでいち早く紹介していきます。少しでも興味があれば、ぜひフォローして最新情報をチェックしてくださいね!👇
Discussion