✨

クリックひとつで未来へ：簡単に使えるComputer Use機能

BAO Givery

2024/11/01に公開

!以下の内容では、Computer Use機能の試用方法、仕組み、実行手順などについて触れています。
初めまして、Givery AI Lab所属AIエンジニアのホウと申します。

今回は、Anthropicが最近リリースした「Computer Use」機能をご紹介します。人の手を解放できる新機能なので、興味がある方はぜひ試してみてください！

 Computer Use とはAnthropic 社が Claude 3.5 Sonnet にて導入した機能で、Claude が人間のように直接コンピュータのインターフェースを操作できるようにするものです。具体的には、Claude はスクリーンショットを分析して画面内容を理解し、ピクセル位置を正確に計算してカーソルを移動させ、仮想キーボードを通じて情報を入力することで、あらゆる既存のソフトウェアを直接操作できます。
https://www.anthropic.com/news/developing-computer-use

 クイックスタート
 実行手順リポジトリーをCloneする
git clone https://github.com/anthropics/anthropic-quickstarts.git
cd computer-use-demo
https://github.com/anthropics/anthropic-quickstarts/tree/main
Docker、API keyを事前に用意した上、以下のコードを実行する
export ANTHROPIC_API_KEY=%your_api_key%
docker run \
    -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
    -v $HOME/.anthropic:/home/computeruse/.anthropic \
    -p 5900:5900 \
    -p 8501:8501 \
    -p 6080:6080 \
    -p 8080:8080 \
    -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
http://localhost:8080 にアクセス
Anthropicが提供するデモ用コードはDocker環境のLinuxにのみ対応していますので、ご注意ください

 結果確認指令
https://www.anthropic.com/research/developing-computer-use
リンク先にある情報をまとめてDesktopのフォルダーに新しい.txtファイルに保存してください
動画はこちら！

以下のデモ動画では、PCがURLの内容を自動的に取得し、要約を生成してローカルのtxtファイルに保存するまでの一連の作業フローを確認できます。
https://x.com/givery_ai_lab/status/1851921272709529852
かかった金額


項目
詳細


モデル名
Claude 3.5 Sonnet

入力料金
$3 / 100万トークン

入力トークン数
106,000

上記のタスクで消費されたトークンの大部分は入力段階で発生し、おおよそ106000トークンで、合計費用は約0.32ドル

 Open Interpreterとの併用Anthropicが提供するデモ用コードは、Docker環境でのみ「Computer Use」機能を体験できる仕様となっていますが、以下のOpen Interpreterを利用すれば、ローカルのMacやWindowsパソコンでも体験が可能です。
https://github.com/OpenInterpreter/open-interpreter
以下はMacの実行手順
pip install open-interpreter
pip install open-interpreter[os]
interpreter --os
指令を「Firefoxを閉じてください」簡単にする
close firefox with cursor
動画はこちら！

以下のデモ動画では、PCが自動的にマウスを移動させ、Firefoxの閉じるボタンをクリックする様子が確認できます。
https://x.com/givery_ai_lab/status/1851922971797131783

 所感AIエージェントが人間社会に適応することで将来性が高いツールだと感じています。今のところ、まだ処理やエラー対処など時間かかると思いますが、従来のローコードや自動化プロセスとは異なり、導入コストの高さやユーザーに対する高い要求といった問題を解決し、「ツールを人のために使う」という理想を実現できると考えています。

 コード内部の深掘り
 仕組みClaudeの「コンピュータ操作」機能は、スクリーン上の画像を視覚的に認識し、ユーザーの意図に基づいて適切な Anthropic-defined ツールを選択・実行することで、仮想環境内での作業を人間のようにシミュレートします。
ピクセル単位で位置を計算し、画面操作を行う
自動的に誤りを修正する能力も備える
本質的には依然としてツールの呼び出しだが、コンピュータ全体の環境とのインタラクションを行うようになった

 Anthropic-defined ツールAnthropic-defined ツール（例えば、コンピュータ使用機能）は、Anthropic によってあらかじめ定義された標準ツールセットです。一方、通常のツール利用は、開発者が独自に定義・実装するカスタムツールです。本質的には同じです。

Computer tool
{'action': 'left_click'}
Claude がマウスやキーボードを使用して、コンピュータの GUI（グラフィカルユーザーインターフェース）を直接操作できる
カーソル移動、クリック、キーボード入力、スクリーンショットなどの基本操作が可能


Text editor tool
{'command': 'create', 'path': '/tmp/test.txt', 'file_text': 'content'}
カスタム編集ツールで、ファイルの表示、作成、編集などの操作をサポートする
コマンドを通じて、ファイルの置換、行の挿入、編集の取り消しなどの操作が可能


Bash tool
{'command': 'cd ~ && pwd'}
Bash シェルでコマンドを実行できるようにし、ファイル操作やソフトウェアのインストールなど、システムレベルの操作に適する


 実行の流れ簡単にまとめると、API 呼び出し → ツール選定 → 情報の更新の順に実行する
詳細は以下のFlow Chartを参照してください
Flow Chart

 ベンチマーク
 OSWorld様々なオペレーティングシステム（Ubuntu、Windows、macOSなど）上でマルチモーダルAIエージェントの実行、評価、学習をサポートする、拡張可能な実コンピュータ環境です。AIエージェントが実際のコンピュータタスクを処理する能力を包括的にテストすることが可能になります。主なタスクは以下になります。

ウェブ・デスクトップアプリケーション関連タスク
実際のウェブアプリケーション操作
各種デスクトップソフトウェアの使用


OS file I/O
ファイル管理
ファイルシステムとの対話


Cross-App Workflows
複数のアプリケーション間の切り替えを必要とする複雑なタスク
複数のアプリケーションが連携して動作するプロセス

https://os-world.github.io/

 パフォーマンス最新のデータによると、Claude 3.5 SonnetはOSWorld評価で22点を獲得し、他のAIモデル（GPT-4 Visionの7.69点）を大きく上回っていますが、依然として人間の水準である70〜75％には達していません。

 今後の展望よりスマートで正確、そして利便性と安全性の高い方向へ進化していくでしょう。

精度向上：画像認識と位置特定技術を最適化し、AIが多様なインターフェース（Win、Macなど）上でより正確な操作を実現する

応答速度の向上：処理速度を加速し、効率的な操作ニーズに応える

エラーハンドリングの強化：適応力とエラー修正能力を強化し、複雑なタスクでも安定性を確保することを期待する

安全性の強化：現時点では、モデルが強力な安全性を確保するため、画面に映るコンテンツによって実行中にエラーが頻繁に発生することがあると思うけど、今後、権限管理と警告機能を追加することで、ユーザー情報の安全を確保しつつ、作業範囲も拡大できると考える
最後に、Givery AIラボでは、最新の生成AI技術を活用し、PoCやAI導入支援など、さまざまなニーズにお応えするソリューションを提供しています。ご興味がある方は、ぜひ以下よりお問い合わせください。
https://givery.co.jp/lp/ai-lab/

項目	詳細
モデル名	Claude 3.5 Sonnet
入力料金	$3 / 100万トークン
入力トークン数	106,000

Givery AI LabPublication

Givery AI Labには第一線で活躍するAIリサーチャー、エンジニア、データサイエンティストなど200人以上のAIエキスパートが在籍しています。「生成AIに関する技術勉強会」「導入事例紹介」「自社AI導入紹介」などを発信しています。

Computer Use とは

クイックスタート

実行手順

結果確認

Open Interpreterとの併用

所感

コード内部の深掘り

仕組み

Anthropic-defined ツール

実行の流れ

ベンチマーク

OSWorld

パフォーマンス

今後の展望

Discussion