🦆

DeepSeekについて調べる

2025/01/28に公開

なぜ作成したのか

  • 名うての生成AIなので社内で利用ニーズが出るかもしれないから、最低限の知識を仕入れておきたい

参考

  • DeepSeek

https://www.deepseek.com/

  • 論文

https://arxiv.org/html/2402.03300v3
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

  • GitHub

https://github.com/deepseek-ai/DeepSeek-R1

  • 参考

https://qiita.com/ymgc3/items/45f2709be9b81d89d709
https://topicsjapan.com/it/riskofdeepseek/

論文「DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models」

1. 論文サマリ

DeepSeekMath 7B は、数学的推論の強化を目的として開発された言語モデルです。Common Crawl[1] から収集した大規模な数学関連データセットを用いて追加の事前学習を行い、競技レベルのMATHベンチマーク[2]で優れた性能を示しています。特に、外部ツールや投票技術に頼らずに高い精度を達成しており、これは公開されているオープンソースモデルの中でも突出した成果です。

2. 先行研究、既存技術に対する優位点

  • 従来の大規模言語モデル(LLM)は、数学的推論において限定的な性能しか示していませんでした。
  • 一方、DeepSeekMath は、特定ドメインに特化した事前学習と新しい強化学習手法であるGroup Relative Policy Optimization(GRPO)[3]を導入することで、数学的推論能力を大幅に向上させています。
  • これにより、従来のオープンソースモデルを大きく上回る性能を実現しています。

3. 技術の系譜、経歴、関係性に関する特筆点

  • DeepSeekMath は、DeepSeek-Coder-Base-v1.5 7B を基盤としており、コードに関する知識を活用しています。
  • さらに、Common Crawl[1:1]から収集した大規模な数学関連データセットを用いることで、モデルの数学的知識を強化しています。
  • また、GRPOという新しい強化学習手法を導入し、従来のPPO手法のメモリ使用量を最適化しつつ、数学的推論能力を向上させています。

4. 現状での課題

  • DeepSeekMathは優れた性能を示していますが、さらなる改善の余地があります。
  • 特に、特定の数学的問題や高度な推論においては、まだ限界が見られます。
  • また、モデルのサイズや計算資源の制約も考慮する必要があります。
  • さらに、GRPO手法の効果や限界についても、今後の研究で詳細に検討する必要があります。

5. 今後の展開

  • 今後は、DeepSeekMath の性能向上のために、さらなるデータ収集やモデルの最適化が検討されています。
  • 特に、より多様な数学的データや他のドメインの知識を取り入れることで、モデルの汎用性を高めることが期待されています。
  • また、GRPO手法の改良や他の強化学習手法との組み合わせにより、さらなる性能向上が見込まれます。

論文「DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning」

1. 論文サマリ

この論文では、言語モデルの推論能力を向上させるために強化学習 (Reinforcement Learning: RL) を利用した「DeepSeek-R1」と「DeepSeek-R1-Zero」の2つのモデルが紹介されています。

  • DeepSeek-R1-Zero: 大規模な強化学習を通じて、事前の教師付きファインチューニング (Supervised Fine-Tuning: SFT) を行わずにトレーニング。自然発生的に高度な推論能力を持つ行動を学習。
  • DeepSeek-R1: SFTによる初期学習データを加えた多段階のトレーニングを採用し、言語の可読性や性能をさらに改善。
  • 成果: 数学やコード生成タスクでOpenAIの「o1-1217」シリーズに匹敵する結果を達成し、複数の小規模モデルにも推論能力を蒸留。

2. 先行研究、既存技術に対する優位点

  1. 強化学習のみの適用:

    • DeepSeek-R1-Zero は、従来のモデルが依存していた教師付きデータを使用せずに純粋なRLを適用し、高度な推論能力を実現。
    • 強化学習アルゴリズム「Group Relative Policy Optimization (GRPO)」を採用し、計算コストを削減。
  2. Cold Startの採用:

    • DeepSeek-R1では「Cold Start」データ[4]を導入し、初期トレーニングの不安定性を解消。これにより、学習効率とモデルの可読性が向上。
  1. 蒸留技術の活用:
    • 大規模モデルの推論能力を小規模モデルに蒸留し、計算資源の節約と性能の維持を実現。

3. 技術の系譜、経歴、関係性

  • 基盤モデル: 「DeepSeek-V3」を基盤とし、これを強化学習で進化させたもの。
  • GRPOの導入: GRPOは通常のPPO(Proximal Policy Optimization)手法に比べて、計算効率とメモリ使用量の観点で優位。
  • 蒸留[5]の応用: DeepSeek-R1からQwenやLlamaといった小規模モデルに推論能力を移植し、研究コミュニティ全体に貢献。

4. 現状での課題

  1. 言語混在問題:
    • DeepSeek-R1-Zero では多言語対応が課題。特定の言語でのクエリに対し、別の言語で回答する場合がある。
  2. プロンプト感度:
    • Few-shotプロンプトの影響で性能が低下する傾向があり、ゼロショットプロンプトの最適化が必要。
  3. ソフトウェア工学タスクの限界:
    • RLの適用範囲が限られているため、エンジニアリングタスクの性能が他のタスクと比べて向上していない。

5. 今後の展開

  1. 多言語対応:
    • 他言語での推論能力を向上させるため、特定言語のトレーニングデータの拡充を予定。
  2. プロンプト設計の改良:
    • プロンプトエンジニアリングを通じて、ゼロショット設定でのモデル性能の最大化を目指す。
  3. ソフトウェアタスクの強化:
    • ソフトウェア工学関連のデータを増加させ、エンジニアリング分野でのRL効率を改善。
  4. 新たなモデル蒸留:
    • 小規模モデルへの蒸留プロセスをさらに最適化し、低コストでの高性能化を目指す。

Privacy Policy から見るリスクポイント(2025-01-28時点)

1. データの国外保存と法的リスク

  • DeepSeekのプライバシーポリシーによれば、収集した個人情報は中華人民共和国(中国)にあるサーバーで保管されます。
  • 日本のガバメントクラウドでは、データの国内保存が推奨されており、国外にデータを保存する場合には、当該国の法令や規制が適用されるリスクを評価し、情報の取扱いや契約内容、準拠法、国際裁判管轄に留意する必要があります。 (デジタル庁)
  • 中国の法律では、企業が政府の情報要求に応じる義務があり、これにより機密情報が中国政府に提供されるリスクが存在します。 (WIRED)

2. 個人情報保護法との整合性

  • 日本の個人情報保護法では、外国において個人データを取り扱う場合、その国の個人情報保護に関する制度等を把握し、安全管理措置を講じることが求められています。 (一般社団法人日本プライバシー認証機構(JPAC))
  • DeepSeekのプライバシーポリシーには、情報の第三者提供や共同利用に関する具体的な記載が不明瞭であり、日本の法令との整合性に課題がある可能性があります。

3. セキュリティ基準の適合性

  • 日本のガバメントクラウドでは、高度な情報セキュリティ対策が求められ、ISO/IEC 27001やISO/IEC 27018などの国際標準に準拠することが推奨されています。 (デジタル庁)
  • DeepSeekのプライバシーポリシーには、これらのセキュリティ基準への適合性に関する明確な記載がなく、セキュリティ要件を満たしているか不明です。

4. データの取り扱いに関する透明性

DeepSeekは、ユーザーから提供された入力内容やチャット履歴などの情報を収集すると明記していますが、これらの情報がどのように利用・保存・削除されるかの詳細が不明です。 (DeepSeek)ガバメントクラウドで取り扱う機密情報の観点から、データの取り扱いに関する透明性が不足していることはリスクとなります。

5. 外部サービスとの連携による情報漏洩のリスク

DeepSeekは、GoogleやAppleなどの第三者サービスとの連携を行う場合があり、これにより情報がこれらのサービスに共有される可能性があります。 (DeepSeek)ガバメントクラウドの利用においては、外部サービスとの連携による情報漏洩のリスクを慎重に評価する必要があります。

利用規約から見るリスクポイント(2025-01-28時点)

1. データの国外保存と法的リスク

  • DeepSeekの利用規約では、収集した個人情報が中華人民共和国(中国)にあるサーバーで保管される可能性が示唆されています。
  • 日本のガバメントクラウドでは、データの国内保存が推奨されており、国外にデータを保存する場合には、当該国の法令や規制が適用されるリスクを評価し、情報の取扱いや契約内容、準拠法、国際裁判管轄に留意する必要があります。
  • 中国の法律では、企業が政府の情報要求に応じる義務があり、これにより機密情報が中国政府に提供されるリスクが存在します。

2. 準拠法と紛争解決の管轄

  • 利用規約の第9条では、本規約の成立、履行、解釈および紛争の解決は、中華人民共和国の法律に準拠し、杭州深度求索人工知能有限公司の所在地の裁判所が管轄権を有すると定められています。
  • 日本のガバメントクラウドにおいては、日本の法律および日本国内の裁判所の管轄が求められるため、法的な整合性に課題が生じる可能性があります。

3. 利用者情報の収集と利用

  • 第4条では、ユーザーがサービスに提供した入力情報(テキスト、画像、ファイルなど)および生成された出力情報(テキスト、表、コードなど)を、サービスの提供、維持、運営、開発、または改善のために使用する可能性があると記載されています。
  • これらの情報がどのように利用・保存・削除されるかの詳細が不明であり、機密性の高い情報を取り扱うガバメントクラウドにおいては、情報漏洩のリスクが懸念されます。

4. 知的財産権の取り扱い

  • 第5条では、DeepSeekがサービスに関連するソフトウェア、技術、プログラム、コード、モデル、ユーザーインターフェース、ウェブページ、テキスト、グラフィック、レイアウトデザイン、商標、電子文書などに関するすべての権利を有すると明記されています。
  • ユーザーが提供した入力情報や生成された出力情報に関する権利の取り扱いが明確でないため、機密情報や知的財産の取り扱いに関してリスクが存在します。

5. サービスの安定性と可用性

  • 第7条では、サービスが「現状のまま」および「提供可能な範囲で」提供されるとし、サービスの中断、エラー、セキュリティ、正確性、信頼性、非侵害性、適合性について保証しないと明記されています。[6]
  • ガバメントクラウドでは、高いサービスの安定性と可用性が求められるため、これらの保証がないことはリスクとなります。

6. 利用規約の変更

  • 第10条では、法律、規制、政策の変更、技術条件、製品機能の変化に応じて、利用規約を適時修正する可能性があると記載されています。
  • 修正後の規約は公式ウェブサイトで公開され、公開された時点で元の規約に取って代わるとされています。
  • ガバメントクラウドにおいては、利用規約の変更がサービス運用に影響を及ぼす可能性があるため、事前の通知や合意が求められる場合があります。

所感

  • 現状ではデータ保存リージョン、入出力データの取り扱いがネックで業務での仕様にはOK出せないかな、という感触。
  • 性能、品質、UIなどには興味あるので個人の分離環境で試すのはアリかも。
脚注
  1. ウェブ全体から収集された大規模なデータセットで、研究やモデル訓練に広く利用されています。 ↩︎ ↩︎

  2. 競技数学の問題を含む評価セットで、言語モデルの数学的推論能力を測定するために使用されます。問題の複雑さは中学校から大学レベルに及びます。 ↩︎

  3. 状態価値モデルを不要とした効率的な強化学習手法。政策の更新を安定かつ効率的に行うための強化学習手法「Proximal Policy Optimization(PPO)」の変種。 ↩︎

  4. トレーニング初期段階で、モデル性能を安定化させるための小規模データセット。 ↩︎

  5. 大規模モデルの知識を小規模モデルに移植する技術。 ↩︎

  6. 一応 ステータスページ は用意されている ↩︎

GitHubで編集を提案

Discussion