AIが人間の代わりにパソコン操作?驚きの新機能を体験してみた
こんにちは、株式会社 Gemcook のじゅんです!🙋
先日 X を見ていたら興味深い投稿を見つけました。
「え?誰もキーボードに触れてないのになんで PC が動いてるの!?」
その投稿には AI が直接 PC を操作している様子が投稿されていました。最初は「これは本当なのか?」と半信半疑でしたが、実際に試してみると...目の前の PC で AI が本当に自動で検索を実行し、必要な情報を表示していく光景を目にしたのです。
実はこれAnthropic が開発した「Computer Use」という新機能なんです。早速詳しく見ていきましょう。
この記事では
- AI が PC を操作する様子を実際に検証
- 環境構築から実行までの手順を解説
- メリット・デメリットを具体的に紹介
Computer Use とは?
みなさんは「Computer Use」という言葉を聞いたことがありますか?
これは Anthropic が Claude 3.5 Sonnet で実現した新機能です。従来の AI は「こうすればいいよ」とアドバイスするだけでしたが、Computer Use では以下のような機能により、まるで人間のように PC を直接操作できるようになりました。
- スクリーンショットを解析して状況を理解
- ピクセル単位で位置を計算
- 実際の操作を自動で実行
試してみる
Computer Use のデモの実行手順をご紹介します。
なお API キーの取得方法や Docker のセットアップについては本題から外れるため、ここでは省略させていただきます。以下、Mac での実行手順です。
検証環境
チップ: Intel
MacOS: Sonoma 14.6.1
チップによってパフォーマンスや一部の挙動が異なる可能性があります。また、MacOS のバージョンによっても動作が異なる場合がありますのでご注意ください。
準備するもの
セットアップ方法については以下を参照して下さい。
- Anthropic の API キー
- Docker
コマンドプロンプトで以下のコマンドを実行する
set ANTHROPIC_API_KEY=your_api_key
docker run \
-e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
-v $HOME/.anthropic:/home/computeruse/.anthropic \
-p 5900:5900 \
-p 8501:8501 \
-p 6080:6080 \
-p 8080:8080 \
-it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
ブラウザでアクセス
コンテナが起動したら、ブラウザで http://localhost:8080 にアクセスします。アクセスすると以下のような画面が表示されるので、左側のチャット欄で指示を出していきます。
指示を出す
今回はドル円の為替レートを検索してみたいと思います。
指示を出すとこのように自動でブラウザが起動します。
結果はこんな感じです。しっかりリアルタイムな情報を検索できています。
メリット・デメリット
メリット
- 画面を見て人間らしく操作できる
- エラー時の状況も確認できる
- 操作の過程が見える
デメリット
- スクリーンショット → 思考 → 指示の流れが遅い
- Token 消費がかなり激しそう
- 実用的な速度には程遠い
- 連続した操作が必要な作業は厳しい
根本的な課題
根本的な処理の仕組みに問題がある気もしています。
- パソコンの UI が機械認識用に設計されていない
- OS レベルでの組み込みが必要かも
- 現状の方式では限界がありそう
感想
Computer Use 機能を実際に試してみて、素直に「すごい」と感じました。AI が人間のように画面を操作する様子は、まるで SF が現実になったかのような体験でした。
これまで AI は、コードを書いたり、文章を生成したりはできても、実際の PC 画面を操作することはできませんでした。それが、今回初めて画面を「見て」「理解して」「操作する」という動作を実現したことに、大きな技術の進歩を感じます。まだまだ発展途上の技術ではありますが、新しい可能性を垣間見ることができた貴重な体験でした 🧑💻
参考記事
Discussion