😇

【遂にo1級登場】DeepseekR1に関して徹底解説します。o1よりも30倍近くAPIのコストが下がりAI開発がより進化しそう

2025/01/21に公開

2024年の年末から今年にかけて中国産のLLMモデル「Deepseek(V3)」が話題でしたが、今回新しく「DeepseekR1」が登場しました。

V3では、4oやGemini・Claude3.5Sonnetを圧倒的なコストパフォーマンスで脅かす存在として大きく話題になりましたが

最近、o1系の「思考するモデル」の対抗馬として、圧倒的なパフォーマンスのR1が登場しました。このDeepseek R1に関して解説します。
v3については、以前記事にしたのでそれを見ていただくとします

https://zenn.dev/aimasaou/articles/32c188b8a2d5b1
筆者は、2025年のキーワードである「AIエージェント」を実現するための"脳"に当たる部分はo1系の思考モデルが処理をすることになり、実際の行動系を3.5Sonnetのようなモデルが処理することになると思っており、このo1モデルの質とコストの壁をどうクリアするかがかなり重要だと考えております。モデルの質が高くなるにつれて仕事の内容がよくなり、コストが低くなるたびに民主化されていき多く議論され発展しやすくなると思っています。今回のR1は、このコストの壁を1つ乗り越える意味で、大きな価値があると思っております

 1. DeepSeek R1とは？
 1-1. ざっくり概要DeepSeek R1は、DeepSeek社が2024年末にリリースした大規模言語モデル「DeepSeek V3」の後継として登場した新モデルです。V3との大きな違いは、深い推論能力を実現するための大規模強化学習（RL）を取り入れている点にあります。
総パラメータ数はV3と同じ6710億（うち推論時は約370億が活性化）

“思考をする” ための事後学習が加わっている
オープンソース（MITライセンス）として公開、APIも利用可能
数学、論理推論、コード生成などでOpenAIのo1モデルに匹敵するベンチマークスコア
価格面でもOpenAIやAnthropicに比べて圧倒的に抑えられている

 1-2. DeepSeek V3からの進化点DeepSeek V3は、わずか数百万ドル規模・数カ月の学習期間でGPT-4相当の性能をうたって話題になりました。DeepSeek R1ではそこに大規模強化学習＋追加の微調整ステップ（SFT、Distillationなど）が導入されています。これにより、
推論精度のさらに向上
自律的な思考プロセス（Chain-of-Thoughtの活性）
エラー訂正や自己検証のスキル獲得
といった機能強化が期待できます。

 1-3. “思考をするAI”とはどういう意味か従来のLLMは大規模データで学習し、ユーザーからの入力（プロンプト）に対してパターンマッチングに基づくテキスト生成を行っていました。一方で「R1」のような“思考型”は、以下のようなステップを明示的・内在的に踏むことを目指します。

課題の理解：与えられた質問・命令をメタ的に把握する。

手段の検討：内部的に思考（Chain-of-Thought）を行い、必要に応じてツールや知識を使う。

仮説検証：生成結果を自ら評価し、適宜修正を加える。

最終回答：ユーザーに返答。必要なら複数ステップで再チャレンジ。
このように、単に確率分布から次単語を出すだけでなく、「問題を解く上での思考プロセス」が内部で強化学習により最適化されているのが “思考をするAI” のポイントです。
お忙しい方は動画でも解説しているので是非どうぞ！
https://www.youtube.com/watch?v=OPeKzWa-IM0&t=259s

 2. なぜ“思考型”が注目されるのか？
 2-1. 従来のLLM（学習・理解型）との違い既存のChatGPTやClaude、Bing Chatなど多くのLLMは、膨大な学習データから得られたパターンを元に“それっぽい”文章を返していました。これは強力な仕組みですが、以下のような課題も残っていました。

論理的な長文推論が苦手：途中で矛盾が生じたり、答えが合わなくなることが多い。

自己言及的なフィードバックが弱い：一度出力を出すと、間違いを自動で訂正しづらい。
思考型LLMは、内部で論理的なステップを明示的に踏むことで、こうした課題を解消しやすくなります。

 2-2. コード・数学・推論タスクでの大幅な性能向上とりわけ、コード生成や数学問題などは、推論ステップが多く必要なタスクです。たとえば、競技プログラミングでは問題文を分析し、複数のファイルやソリューションを行き来しながら最適解にたどり着くプロセスが必要です。

従来のLLMだと、単発でコードを書いて終わりというケースが多かったのが、“思考型”LLMであればテスト結果やツール呼び出しを活用して、より正確・効率的にコードを完成させられる可能性が高まります。

 3. OpenAI-o1級の性能？ ベンチマークから見る実力DeepSeek R1は公式サイトやコミュニティの検証によると、数学・コーディング・読解の主要ベンチマークでOpenAI-o1モデルに並ぶ、あるいは凌駕するスコアを叩き出しています。以下に、参考になる比較表を示します。
Note: 上表は一部推定値を含むため、実際の数値と完全には一致しない場合があります。

MATH-500 (Pass@1)：大学レベルの数学問題集。DeepSeek R1は90%後半の正答率に到達。

LiveCodeBench (Pass@1)：ソフトウェア開発に必要な複数ファイルの編集やテストを要する問題集。DeepSeek R1は65.9%と高得点。

価格面：DeepSeek R1は出力トークンあたり$2.19とされ、思考の質にもよるがo1どころか4oよりも安く圧倒的低価格と言える
このように、高性能を維持しつつも、OpenAIやAnthropicと比較すれば相対的に安価な料金設定を実現している点が注目されています。
【宣伝】AI開発に関する最新トピックや、初心者からプロ向けのTIPSをX（旧Twitter）で日々発信しています。「もっと知りたい」「最新情報を逃したくない」と感じていただけたら、ぜひフォローをお願いします！👇👇
X(twitter) 👉 https://x.com/AI_masaou

 4. 大規模強化学習（RL）＋SFT＋蒸留モデルのしくみ
 4-1. DeepSeek R1の学習手法の概要DeepSeek R1は 強化学習（RL） を用いた事後トレーニングが特徴的です。一般的に、大規模言語モデルは以下のステップを経て開発されます。

事前学習（Pre-training）：大規模コーパスを使い、“次の単語を予測”する形でモデルを作る。

教師あり微調整（SFT）：人間が作成した品質の高い指示・応答ペアを使い、モデルを特定タスク向けに微調整する。

RLHF（強化学習＋人間のフィードバック）：モデルの出力を人間が評価し、そのスコアを報酬としてモデルを更新する。
DeepSeek R1では、特にステップ3の強化学習を大規模に行ったとされています。しかも、従来のSFTなしにいきなりRLを施すというアプローチ（DeepSeek-R1-Zeroと呼ばれるバージョン）を試し、その後さらにSFTを加えたDeepSeek R1が完成したという流れです。この手法により、モデル内部の思考プロセス（Chain-of-Thought）や自己検証が促進されたと報告されています。

 4-2. RLのみで“推論力”を獲得できる仕組み通常、Chain-of-Thoughtを上手く扱うためには、SFTデータや人間のラベルがある程度必要とされてきました。ところが、DeepSeek-R1-ZeroはSFTを経ずにRLで推論力を得たと謳われています。これにより、
大規模データ収集コストの削減
未知のタスクや複雑な状況での自己修正
が可能になったとされています。ただし、完全にSFTを経ないモデルは、やや文章が読みにくい、意図しない多言語化が混ざるなどの課題も残っています。

 4-3. なぜ蒸留モデルでも高性能を実現できるのかDeepSeek社はR1から得られた推論パターンを小型モデルに蒸留（Distillation）することで、1.5B、7B、8B、14B、32B、70Bといった多様なサイズのモデルも公開しています。
通常、小型化すると性能が大幅に劣化しやすい
優れた推論データを蒸留に使うことで、比較的高性能を保てる
たとえば32Bモデルでも、OpenAI-o1-miniに迫るベンチマークを達成
「家庭用GPUでも高度な推論力を試せる」という点がアピールされている

 5. 料金とライセンス：本当に安いの？
 5-1. 新料金プランの概要（APIコスト、キャッシュヒット時など）DeepSeek R1のAPI料金は、公式ドキュメントによると以下のようになっています（2025年1月時点）。


項目
料金


入力トークン（キャッシュヒット時）
$0.14 / 1M tokens

入力トークン（キャッシュミス時）
$0.55 / 1M tokens

出力トークン
$2.19 / 1M tokens

コンテキスト長
128K tokens (最大)


キャッシュヒット：同一プロンプトが短時間に呼ばれた場合などに割引が適用される仕組み
DeepSeek V3の出力トークンあたり$0.28と比べると、R1は7〜8倍ほど高め
大規模強化学習の開発コストや推論時のリソース増加が反映されている可能性
とはいえ、o1どころか4oと比べても全然安いので圧倒的コスパであることは変わらない


 5-2. MITライセンスのポイントDeepSeek R1はMITライセンスで提供されており、
商用利用が可能
改変・再配布も自由
蒸留データの再利用も可能
といった、非常にオープンなスタンスをとっています。ただし、元となるモデルがQwen（アリババ）やLlama（Meta）に基づくものは、元ライセンスの影響を受ける場合があるので注意が必要です。

 5-3. コストメリット・利用範囲の解説DeepSeek V3より割高ではあるものの、OpenAI GPT-o1に比べると大幅に安価に済むケースが多いです。

特に、以下のようなニーズがある場合にR1の採用が検討されるでしょう。
高度な論理推論や複数ステップでのコード生成が必要
大容量のコンテキスト（128K tokens）を活かして長文ドキュメントの処理をしたい
オープンソースモデルとして自社クラウドなどにセルフホスティングしたい（ライセンス的に許可されている）

 6. 基本的なLLMワークフロー：Prompt ChainingやParallel化などLLMを使ったワークフローにはさまざまなパターンがあります。DeepSeek R1も基本的には同様の設計が可能です。

Prompt Chaining：タスクを複数のステップに分割し、それぞれの中間結果を次の入力にする仕組み。

Parallel化：複数のモデル・複数のプロンプトを同時に走らせ、最後に結果をまとめる。

Evaluator-Optimizerループ：モデルが自己評価や別モデルからのフィードバックを受け取り、改善を重ねる。
これらのワークフローはAIエージェントを構築する土台にもなります。

 AIエージェントとしての導入：DeepSeek R1 × DeepSeek V3の使い分け
いつ“思考型”R1を使い、いつV3のような低コストモデルを使うべきか？

R1が得意：大規模な推論（複数ステップ）、数学や複雑なコーディングの問題、長文分析。

V3が得意：基本的な会話対応、シンプルな要約・分類、大量バッチ処理。

たとえば、ユーザーサポートチャットボットを作る場合、まずDeepSeek V3で一次対応を行い、難易度の高い問い合わせのみDeepSeek R1に回す構成が考えられます。この使い分けにより、コストを低減しつつ、複雑なタスクにも対応可能です。

 OpenAIやAnthropicの例に見るエージェント化のパターンOpenAIやAnthropicでも、LangChain等のフレームワークを使い、複数のモデルを組み合わせて“AIエージェント”を構築する事例が増えています。エージェントを構築する際は、LLMに動的な意志決定やツール選択を委ねるため、以下の点を検討する必要があります。

ツール群の整備：Google検索APIやデータベースアクセス、コード実行環境など。

プロンプト設計：ツールの使い方を明確に指示し、ゴールや失敗時の振る舞いを定義。

ガードレール：誤用や無限ループを防ぐためのメカニズム。
DeepSeek R1は大容量コンテキストと高い推論力を持つため、柔軟なエージェント設計に向いていると言えます。

 7. DeepSeek R1を使う際の注意点
 7-1. セキュリティやプライバシーへの配慮DeepSeek R1のような高機能モデルは、誤用されると個人情報や機密情報の漏洩が起こり得ます。MITライセンスで自由度が高いぶん、利用者側でのポリシー設定やアクセス制限が求められます。

 7-2. 今後の展望：さらに進化する“思考型”LLMR1はあくまで**“初代思考型”**ともいえる位置づけです。今後は、
推論ステップをさらに可視化・制御できるフレームワークの登場
マルチモーダル対応（画像・音声など）
常時学習（オンライン学習）
など、エージェント化が加速していく可能性があります。

 8. DeepSeek R1がもたらす業界インパクト
 8-1. 他社モデル（Meta/Googleなど）との連携や相乗効果DeepSeek R1はオープンソースであるため、MetaのLlamaシリーズやGoogleのGemini系モデルと比較しつつ、使い分けたり、相互に蒸留するようなシナジーも期待できます。たとえば、
Llamaベースのモデルを既に使っている企業が、R1の蒸留モデルを取り込む
Gemniの高速応答部分を組み合わせて、推論ステップを効率化する
といった連携が容易になるでしょう。

 8-2. 将来的なAIエージェント化への期待R1の思考プロセスは、ツール連携やワークフローの自動化によって、自主的にタスクを完了するAIエージェントへの発展を後押しします。具体的には、

顧客サポート：複数の社内データベースから情報を引き出し、適切な解決策を提示する。

ソフトウェア開発：コードを修正し、テストを実行、エラーがあれば再修正するループ。

研究開発：論文を解析し、新規アイデアや実験計画を自動化。
これらのシステムが本格化すると、人間の介在が最小限でも高度な仕事をこなすエージェントが当たり前になる時代がやってくると考えられます。

 9. まとめ：DeepSeek R1はどこまで使える？
 9-1. コストを抑えながら高性能を活かすコツ簡単なタスクはDeepSeek V3や他の低コストモデルに任せる
複雑な論理・コード・長文タスクはR1で対応
APIのキャッシュヒット機能を活かして同じプロンプトの呼び出しコストを下げる
蒸留モデル（1.5B〜32Bなど）をローカル運用すれば、トークン課金を抑えつつ高度な推論力が得られる

 9-2. R1が開く新しい可能性と残る課題
新しい可能性：AIエージェント化の加速、個人開発者でも高度な推論モデルを扱える時代の到来。

残る課題：思考プロセスが暴走したり、多言語混入・意味不明な回答が出るリスク。複雑性が増すほど安全対策やガードレールが重要になる。
DeepSeek R1は、AIモデル開発の歴史の中で “思考”と“性能” を両立させる新たなベンチマークを打ち立てた存在と言えます。最先端の論理推論やコーディング支援を必要とする場面では頼りになりますが、その分コストや運用上の難しさも増します。コストと利便性のバランスを取りながら、自社のユースケースに合った導入戦略を検討するのが賢明です。
以上、DeepSeek R1の概要から料金体系、活用方法、今後の展望に至るまでを解説しました。特にAIエージェントの文脈では、R1ならではの思考能力を活かした高度な自律的タスク処理が期待されます。

これからのLLM市場は、“思考型LLM”が主役になる可能性が高いです。ぜひこの機会にDeepSeek R1を試してみて、次世代のエージェント開発を体験してみてはいかがでしょうか。
ここまでお付き合いいただき、ありがとうございます。今後もAI分野の新しい活用方法や開発テクニックを、X（旧Twitter）やYoutubeでいち早く紹介していきます。少しでも興味があれば、ぜひフォローして最新情報をチェックしてくださいね！👇
https://x.com/AI_masaou

https://www.youtube.com/@ai_masaou

【遂にo1級登場】DeepseekR1に関して徹底解説します。o1よりも30倍近くAPIのコストが下がりAI開発がより進化しそう

1. DeepSeek R1とは？

1-1. ざっくり概要

1-2. DeepSeek V3からの進化点

1-3. “思考をするAI”とはどういう意味か

2. なぜ“思考型”が注目されるのか？

2-1. 従来のLLM（学習・理解型）との違い

2-2. コード・数学・推論タスクでの大幅な性能向上

3. OpenAI-o1級の性能？ベンチマークから見る実力

4. 大規模強化学習（RL）＋SFT＋蒸留モデルのしくみ

4-1. DeepSeek R1の学習手法の概要

4-2. RLのみで“推論力”を獲得できる仕組み

4-3. なぜ蒸留モデルでも高性能を実現できるのか

5. 料金とライセンス：本当に安いの？

5-1. 新料金プランの概要（APIコスト、キャッシュヒット時など）

5-2. MITライセンスのポイント

5-3. コストメリット・利用範囲の解説

6. 基本的なLLMワークフロー：Prompt ChainingやParallel化など

AIエージェントとしての導入：DeepSeek R1 × DeepSeek V3の使い分け

OpenAIやAnthropicの例に見るエージェント化のパターン

7. DeepSeek R1を使う際の注意点

7-1. セキュリティやプライバシーへの配慮

7-2. 今後の展望：さらに進化する“思考型”LLM

8. DeepSeek R1がもたらす業界インパクト

8-1. 他社モデル（Meta/Googleなど）との連携や相乗効果

8-2. 将来的なAIエージェント化への期待

9. まとめ：DeepSeek R1はどこまで使える？

9-1. コストを抑えながら高性能を活かすコツ

9-2. R1が開く新しい可能性と残る課題

Discussion

項目	料金
入力トークン（キャッシュヒット時）	$0.14 / 1M tokens
入力トークン（キャッシュミス時）	$0.55 / 1M tokens
出力トークン	$2.19 / 1M tokens
コンテキスト長	128K tokens (最大)

1. DeepSeek R1とは？

1-1. ざっくり概要

1-2. DeepSeek V3からの進化点

1-3. “思考をするAI”とはどういう意味か

2. なぜ“思考型”が注目されるのか？

2-1. 従来のLLM（学習・理解型）との違い

2-2. コード・数学・推論タスクでの大幅な性能向上

3. OpenAI-o1級の性能？ ベンチマークから見る実力

4. 大規模強化学習（RL）＋SFT＋蒸留モデルのしくみ

4-1. DeepSeek R1の学習手法の概要

4-2. RLのみで“推論力”を獲得できる仕組み

4-3. なぜ蒸留モデルでも高性能を実現できるのか

5. 料金とライセンス：本当に安いの？

5-1. 新料金プランの概要（APIコスト、キャッシュヒット時など）

5-2. MITライセンスのポイント

5-3. コストメリット・利用範囲の解説

6. 基本的なLLMワークフロー：Prompt ChainingやParallel化など

AIエージェントとしての導入：DeepSeek R1 × DeepSeek V3の使い分け

OpenAIやAnthropicの例に見るエージェント化のパターン

7. DeepSeek R1を使う際の注意点

7-1. セキュリティやプライバシーへの配慮

7-2. 今後の展望：さらに進化する“思考型”LLM

8. DeepSeek R1がもたらす業界インパクト

8-1. 他社モデル（Meta/Googleなど）との連携や相乗効果

8-2. 将来的なAIエージェント化への期待

9. まとめ：DeepSeek R1はどこまで使える？

9-1. コストを抑えながら高性能を活かすコツ

9-2. R1が開く新しい可能性と残る課題

Discussion

3. OpenAI-o1級の性能？ベンチマークから見る実力