📝

Anthropic 新たなAIモデルの開発と展開に厳格な制限を設定

2024/10/16に公開

AIの安全性強化へ向けてポリシーを大幅更新

2024年10月15日、Anthropicは2023年9月に導入されたResponsible Scaling Policy(RSP)の大幅な更新版をリリースしました。このポリシーは、フロンティアAIシステムから生じる潜在的な破壊的リスクを軽減するためのリスクガバナンスフレームワークです。

新たなAIモデルの開発と展開に厳格な制限を設定

  • 新モデルの制限: 必要なセキュリティ基準が整備されるまで、より高度な能力を持つ新しいモデルの訓練や展開を制限します。
  • 能力の監視: 開発中の新モデルの能力を常にモニタリングし、既存モデルと比較評価します。
  • 安全性の確保: 新モデルの能力が既存モデルを上回る場合、必要なセキュリティ基準(ASL-3以上)が実装され、十分であることが確認されるまで、開発を一時停止します。

この方針により、Anthropicは最先端AI技術の開発を進めながら、同時に潜在的リスクを最小限に抑える取り組みを行っています。

フロンティアAIシステムとは、最先端の技術を用いて開発された、高度な能力を持つAIシステムを指します。これらのシステムは、人間レベルに匹敵する、あるいはそれを超える可能性のある能力を持ち、多様な分野で革新的な応用が期待される一方で、潜在的なリスクも伴います。

今回の更新では、AIリスクの評価と管理に対するより柔軟で細やかなアプローチが導入されています。

先進AIの約束と課題

フロンティアAIモデルの進歩は、社会と経済に変革的な利益をもたらす可能性があります。AIは科学的発見を加速し、医療を革新し、教育システムを強化し、人間の創造性とイノベーションのための全く新しい領域を生み出す可能性があります。しかし、フロンティアAIシステムは、慎重な研究と効果的な保護措置を必要とする新たな課題とリスクも提示しています。

更新されたRSPの主要コンポーネント:

1. AI安全性レベル(ASLs)

RSPはAI安全性レベル標準(ASL Standards)を導入しています。これは、モデルの能力が増加するにつれてより厳格になる、段階的な安全性とセキュリティ対策のセットです。現在、Anthropicのすべてのモデルは業界のベストプラクティスを反映したASL-2標準の下で運用されています。

2. 能力閾値と必要な保護措置

ポリシーは、現在のベースライン標準よりも強力な保護措置を必要とする特定の能力閾値を定義しています。主要な閾値には以下が含まれます:

  1. 自律的AI研究開発:モデルが人間の専門知識を通常必要とする複雑なAI研究タスクを独立して実行できる場合、高度なセキュリティ標準(ASL-4以上)と追加の安全性保証が必要とされます。

  2. 化学、生物、放射線、核(CBRN)兵器:モデルが基本的な技術的背景を持つ人がCBRN兵器の作成または展開を意味のある形で支援できる場合、強化されたセキュリティと展開保護措置(ASL-3標準)が必要とされます。

3. ASL-3標準

ASL-3標準は、CBRN兵器に関連する能力閾値を超えた場合に適用される強化された保護措置です:

  1. 展開標準:

    • 多層的なモニタリングと迅速な対応プロトコル
    • 展開前の徹底的なレッドチーミング
    • 誤用に対する堅牢性の評価
  2. セキュリティ標準:

    • 内部アクセス制御の強化
    • モデルの重みの保護強化
    • 非国家の攻撃者からの保護

4. ASL-4以上の標準

ASL-4以上の標準は、自律的AI研究開発の能力閾値を超えた場合に必要とされる可能性があります:

  • さらに強化されたセキュリティ対策(国家レベルの攻撃者からの保護を含む)
  • モデルの整合性に関するより厳格な要件
  • より厳格な展開管制と監視システム

Anthropicは、AI技術の進歩に合わせてこれらの標準を継続的に評価・更新していく予定です。

5. 実装と監督

ポリシーの効果的な実施に貢献するため、以下が確立されています:

  • 能力評価:能力閾値に基づく定期的なモデル評価
  • 保護措置評価:セキュリティと展開安全対策の有効性の定期的評価
  • 文書化と意思決定:高信頼性産業で一般的な安全性ケース方法論に触発された評価プロセス
  • 内部ガバナンスと外部インプットのための措置:内部のストレステストと外部専門家からのフィードバック

6. 訓練と展開の制限

Anthropicは、必要なセキュリティ基準が整備されるまで、より高度な能力を持つ新しいモデルの訓練や展開を制限する方針を明確にしています:

  1. 高度な能力を持つ新モデルの訓練は、適切なセキュリティ基準(ASL-3)が整うまで制限されます。ASL-3(AI安全性レベル3)は、より厳格な安全対策を要する高性能AIモデルに適用される基準です。

  2. 新しいAIモデルの開発過程では、そのモデルの能力を常に監視し、既存のモデルと比較します。新モデルの能力が既存モデルと同等かそれ以上になった場合、より高度な安全対策(ASL-3基準)が整うまで、開発を一時停止します。

これらの方針は、Anthropicが新しい高度なモデルの開発を進める際に、必要なセキュリティ対策が十分に整備されていることを確認するための重要なステップを示しています。これにより、技術の進歩と安全性のバランスを取りながら、責任ある方法でAI開発を進めることが可能になります。

経験からの学び

Anthropicは、前回のRSPの実施から多くを学び、この更新を機にフレームワークの改善を行いました:

  • 柔軟性の向上:評価のスケジュールや方法論に関するより柔軟なアプローチの導入
  • コンプライアンス追跡プロセスの改善
  • 標準的な技術(チェーンオブソートやbest-of-N)の実装による評価パフォーマンスの向上

展望

AIのフロンティアは急速に進歩しているため、将来のシステムに適切な安全対策を予測することは困難です。Anthropicの安全性プログラムのすべての側面(ポリシー、評価方法論、保護措置、潜在的リスクと緩和策の研究)は継続的に進化していきます。

また、共同創設者兼最高科学責任者のJared KaplanがAnthropicのResponsible Scaling責任者に就任し、Responsible Scalingの責任者の職位が新設されました。

結論

Anthropicの更新されたResponsible Scaling Policyは、同社が責任を持って透明性のあるAI開発を継続的に行うことへのコミットメントを示しています。このフレームワークを実装し、経験を共有することで、AnthropicはAIの能力が進歩する中で、イノベーションと安全性のバランスを取り、業界全体のベストプラクティスの確立に貢献することを目指しています。

情報源と詳細

この記事は、Anthropicが公開したResponsible Scaling Policy(RSP)の更新に関する公式発表を要約したものです。本要約は、以下のAnthropicの公式ウェブサイトに掲載された1次ソースの情報に基づいています:

Announcing Our Updated Responsible Scaling Policy

この要約では、RSPの主要な更新点、新しいフレームワークの構成要素、および実装に関する重要な情報を提供していますが、詳細な内容については上記リンク先の公式発表をご参照ください。

Anthropicの取り組みや責任あるAI開発に関する最新の方針を正確に理解するためには、公式サイトの情報を直接確認されることをお勧めします。本記事の内容は公開情報の要約であり、Anthropicの公式見解や最新の状況を完全に反映していない可能性があります。

Discussion