🧠

computer use(パブリックベータ版)をBedrockで触ってみた

2024/10/23に公開

Claudeの新機能であるcomputer use(パブリックベータ版)がリリースされたので、触ってみました。今回使用するのはAnthropicが提供しているクイックスタート(Bedrock)です。
https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo

computer useとは

公式に記載されている記事を翻訳して抜き出してみました。

Claudeが個々のタスクを完了するのを支援するための特定のツールを作成するのではなく、一般的なコンピューター スキルを教えることで、人間向けに設計されたさまざまな標準ツールやソフトウェア プログラムを使用できるようにします。

開発者がClaudeに対し、カーソル移動、ボタンクリックといった操作を人間と同じように指示することができます。以下のデモ動画をみるとイメージできると思います。

https://www.youtube.com/watch?v=jqx18KgIzAE

この動画ではサンフランシスコに来る友達のために、日の出のハイキングのスケジュールをClaudeに考えてもらっています。まず、ハイキングの場所を検索し、開発者の家からどの程度離れているかをMapを使って調査しています。次に日の出の時間を検索し、カレンダーにスケジュールを入力しています。それだけではなく、カレンダーに詳細もきちんと入力しています。

あくまでもこれは一例なので、現状どこまでできるかはわかりませんが、computer useについてイメージできたと思います。

https://www.anthropic.com/news/3-5-models-and-computer-use

事前準備

Claude 3.5 Sonnet v2のモデルアクセスが必要です。

クイックスタートの導入

  1. git cloneする
  2. cd computer-use-demo
  3. export AWS_PROFILE=<your_aws_profile>
  4. dockerを下のコマンドで起動する
docker run \
    -e API_PROVIDER=bedrock \
    -e AWS_PROFILE=$AWS_PROFILE \
    -e AWS_REGION=us-west-2 \
    -v $HOME/.aws/credentials:/home/computeruse/.aws/credentials \
    -v $HOME/.anthropic:/home/computeruse/.anthropic \
    -p 5900:5900 \
    -p 8501:8501 \
    -p 6080:6080 \
    -p 8080:8080 \
    -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

完了したら以下のような文言が出てくるので、http://localhost:8080にアクセスしてください。

✨ Computer Use Demo is ready!
➡️  Open http://localhost:8080 in your browser to begin

アクセスすると、以下のような画面になります。

それぞれの設定は以下の通りです。

Text 備考
API Provider 使用するProvider。今回はBedrockを選択。
Model 使用するモデル。
Only send N most recent images プロンプトに使用する画像の枚数。指定された値を超えると古い画像を会話履歴から削除していく。
Custom System Prompt Suffix システムプロンプト
Hide Screenshots チャットのスクリーンショットが非表示になります。
Reset アプリの再スタート。
Toggle Screen Control(off) onにするとWorkSpaceを操作できます。

実際に試してみた

試しに弊社について調べてみました。

https://x.com/sonoda_mj/status/1848988647783338097

ちゃんとFirefoxで検索して調べてくれましたね。めちゃめちゃ近未来感があります。

次は検索だけではなく、電卓で計算させてみましょう。お題は100 + 1200です。

https://x.com/sonoda_mj/status/1848990521173414217

電卓を開くところはうまく行きましたが、肝心の数字入力がうまく行きませんでした。結果として10 + 120 = 130と表示されましたが、計算結果が正しくないと感じたのか、1300と回答が返ってきました。ここら辺は調整が必要ですね。

まとめ

クイックスタートのcomputer use(パブリックベータ版)を試してみました。まだまだパブリックベータ版ということもあり、全てがうまくいくわけではありませんでしたが、今後モデルのアップデートで色々出来るようになると思うので、楽しみに待とうと思います。

Fusic 技術ブログ

Discussion