クリックひとつで未来へ:簡単に使えるComputer Use機能
初めまして、Givery AI Lab所属AIエンジニアのホウと申します。
今回は、Anthropicが最近リリースした「Computer Use」機能をご紹介します。人の手を解放できる新機能なので、興味がある方はぜひ試してみてください!
Computer Use とは
Anthropic 社が Claude 3.5 Sonnet にて導入した機能で、Claude が人間のように直接コンピュータのインターフェースを操作できるようにするものです。具体的には、Claude はスクリーンショットを分析して画面内容を理解し、ピクセル位置を正確に計算してカーソルを移動させ、仮想キーボードを通じて情報を入力することで、あらゆる既存のソフトウェアを直接操作できます。
クイックスタート
実行手順
-
リポジトリーをCloneする
git clone https://github.com/anthropics/anthropic-quickstarts.git cd computer-use-demo
-
Docker、API keyを事前に用意した上、以下のコードを実行する
export ANTHROPIC_API_KEY=%your_api_key% docker run \ -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \ -v $HOME/.anthropic:/home/computeruse/.anthropic \ -p 5900:5900 \ -p 8501:8501 \ -p 6080:6080 \ -p 8080:8080 \ -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
-
http://localhost:8080
にアクセス -
Anthropicが提供するデモ用コードはDocker環境のLinuxにのみ対応していますので、ご注意ください
結果確認
-
指令
https://www.anthropic.com/research/developing-computer-use リンク先にある情報をまとめてDesktopのフォルダーに新しい.txtファイルに保存してください
-
動画はこちら!
以下のデモ動画では、PCがURLの内容を自動的に取得し、要約を生成してローカルのtxtファイルに保存するまでの一連の作業フローを確認できます。
-
かかった金額
項目 詳細 モデル名 Claude 3.5 Sonnet 入力料金 $3 / 100万トークン 入力トークン数 106,000
上記のタスクで消費されたトークンの大部分は入力段階で発生し、おおよそ106000トークンで、合計費用は約0.32ドル
Open Interpreterとの併用
Anthropicが提供するデモ用コードは、Docker環境でのみ「Computer Use」機能を体験できる仕様となっていますが、以下のOpen Interpreterを利用すれば、ローカルのMacやWindowsパソコンでも体験が可能です。
-
以下はMacの実行手順
pip install open-interpreter pip install open-interpreter[os] interpreter --os
-
指令を「Firefoxを閉じてください」簡単にする
close firefox with cursor
-
動画はこちら!
以下のデモ動画では、PCが自動的にマウスを移動させ、Firefoxの閉じるボタンをクリックする様子が確認できます。
所感
AIエージェントが人間社会に適応することで将来性が高いツールだと感じています。今のところ、まだ処理やエラー対処など時間かかると思いますが、従来のローコードや自動化プロセスとは異なり、導入コストの高さやユーザーに対する高い要求といった問題を解決し、「ツールを人のために使う」という理想を実現できると考えています。
コード内部の深掘り
仕組み
Claudeの「コンピュータ操作」機能は、スクリーン上の画像を視覚的に認識し、ユーザーの意図に基づいて適切な Anthropic-defined ツールを選択・実行することで、仮想環境内での作業を人間のようにシミュレートします。
- ピクセル単位で位置を計算し、画面操作を行う
- 自動的に誤りを修正する能力も備える
- 本質的には依然としてツールの呼び出しだが、コンピュータ全体の環境とのインタラクションを行うようになった
Anthropic-defined ツール
Anthropic-defined ツール(例えば、コンピュータ使用機能)は、Anthropic によってあらかじめ定義された標準ツールセットです。一方、通常のツール利用は、開発者が独自に定義・実装するカスタムツールです。本質的には同じです。
-
Computer tool
{'action': 'left_click'}
- Claude がマウスやキーボードを使用して、コンピュータの GUI(グラフィカルユーザーインターフェース)を直接操作できる
- カーソル移動、クリック、キーボード入力、スクリーンショットなどの基本操作が可能
-
Text editor tool
{'command': 'create', 'path': '/tmp/test.txt', 'file_text': 'content'}
- カスタム編集ツールで、ファイルの表示、作成、編集などの操作をサポートする
- コマンドを通じて、ファイルの置換、行の挿入、編集の取り消しなどの操作が可能
-
Bash tool
{'command': 'cd ~ && pwd'}
- Bash シェルでコマンドを実行できるようにし、ファイル操作やソフトウェアのインストールなど、システムレベルの操作に適する
実行の流れ
- 簡単にまとめると、API 呼び出し → ツール選定 → 情報の更新の順に実行する
- 詳細は以下のFlow Chartを参照してください
Flow Chart
ベンチマーク
OSWorld
様々なオペレーティングシステム(Ubuntu、Windows、macOSなど)上でマルチモーダルAIエージェントの実行、評価、学習をサポートする、拡張可能な実コンピュータ環境です。AIエージェントが実際のコンピュータタスクを処理する能力を包括的にテストすることが可能になります。主なタスクは以下になります。
-
ウェブ・デスクトップアプリケーション関連タスク
- 実際のウェブアプリケーション操作
- 各種デスクトップソフトウェアの使用
-
OS file I/O
- ファイル管理
- ファイルシステムとの対話
-
Cross-App Workflows
- 複数のアプリケーション間の切り替えを必要とする複雑なタスク
- 複数のアプリケーションが連携して動作するプロセス
パフォーマンス
最新のデータによると、Claude 3.5 SonnetはOSWorld評価で22点を獲得し、他のAIモデル(GPT-4 Visionの7.69点)を大きく上回っていますが、依然として人間の水準である70〜75%には達していません。
今後の展望
よりスマートで正確、そして利便性と安全性の高い方向へ進化していくでしょう。
- 精度向上:画像認識と位置特定技術を最適化し、AIが多様なインターフェース(Win、Macなど)上でより正確な操作を実現する
- 応答速度の向上:処理速度を加速し、効率的な操作ニーズに応える
- エラーハンドリングの強化:適応力とエラー修正能力を強化し、複雑なタスクでも安定性を確保することを期待する
- 安全性の強化:現時点では、モデルが強力な安全性を確保するため、画面に映るコンテンツによって実行中にエラーが頻繁に発生することがあると思うけど、今後、権限管理と警告機能を追加することで、ユーザー情報の安全を確保しつつ、作業範囲も拡大できると考える
最後に、Givery AIラボでは、最新の生成AI技術を活用し、PoCやAI導入支援など、さまざまなニーズにお応えするソリューションを提供しています。ご興味がある方は、ぜひ以下よりお問い合わせください。
Discussion