🐾

【Anthropic発表】Claude 3.5 SonnetがComputer useを実装

2024/10/23に公開

本記事は、Anthropicが2024年10月23日に公開したDeveloping a computer use modelの内容を日本語でまとめたものです。

Anthropicは2024年10月23日、同社の大規模言語モデルClaude 3.5 Sonnetに、人間のようにコンピュータを直接操作する機能を追加したことを発表しました。この新機能は現在パブリックベータ版として提供されており、適切なソフトウェア環境下で利用可能です。

新機能の概要と特徴

この新機能により、Claudeは以下の操作が可能になりました:

  • マウスカーソルの移動
  • 画面上の位置を認識してのクリック操作
  • 仮想キーボードによる文字入力
  • 画面状態の理解と適切な操作の実行

コンピュータ操作機能の重要性

現代のビジネス環境において、業務のほとんどがコンピュータ上で行われています。AIがコンピュータソフトウェアと直接やり取りできるようになることで、現世代のAIアシスタントでは実現できなかった多くのアプリケーションの可能性が開かれます。

技術開発のプロセス

この機能の実現には、以下の要素が組み合わされています:

  1. 画像認識と解析技術

    • 画面内容の理解
    • 状況に応じた操作の判断
  2. 操作制御の実装

    • ピクセル単位でのカーソル移動
    • 目的の位置を特定してのクリック操作
  3. 段階的な学習方式

    • 基本的なソフトウェア(電卓、テキストエディタ)での訓練
    • セキュリティを考慮した制限付き環境での学習

性能評価

コンピュータ操作能力の評価において、以下の結果が得られています:

  • 標準評価基準「OSWorld」で14.9%のスコアを達成
  • 次点のAIモデル(7.7%)を上回るスコア
  • 人間レベル(70-75%)には到達していない
  • エラーが発生した際の自己修正能力を確認

安全対策

Anthropicは以下の安全対策を実施しています:

  1. AI安全性レベルの維持

    • 現行バージョンは安全性レベル2を維持
    • 定期的なリスク評価の実施
  2. セキュリティ保護機能

    • プロンプトインジェクション(不正命令)対策
    • 選挙関連活動の監視システム
    • 特定操作(SNS投稿、政府サイトアクセスなど)の制限
  3. プライバシー保護

    • ユーザーから提供されたスクリーンショットデータは学習に使用しない方針

現状の課題

現時点で認識されている主な制限事項:

  • 操作速度の最適化が必要
  • 一部の一般的操作(ドラッグ、ズームなど)が未実装
  • スクリーンショットベースの認識による一時的な変化の見落とし

将来への展望

Anthropicは以下の改善を目指しています:

  • より高速で信頼性の高い操作の実現
  • より多様な操作方法への対応
  • 実装の簡易化
  • 安全性の継続的な向上

現在、この機能はパブリックベータ版として提供されており、開発者からのフィードバックを募集しています。

本記事は、Anthropicの公式ブログの内容を基に作成されています。詳細な情報は原文をご参照ください。

関連情報

Anthropic社から同時に発表された他の内容については以下のブログにまとめまています

https://zenn.dev/shirochan/articles/708d30063d93fa

Discussion