Open5

なんかワクワクする Computer use を触ってみようとした(が、使えなかった)

whshidowhshido

Computer use とは

OpebAIの下記のページをChatGPTに要約してもらいました。
簡単にいうと、自動的にブラウザとか操作して、タスクをこなしてくれるエージェントです 🤖
(これが本当に期待通りできたら、ワクワクものです)
https://platform.openai.com/docs/guides/tools-computer-use

Computer use は、GPT-4o の視覚能力と高度な推論機能を組み合わせて、実際にコンピューターのインターフェースを操作し、ユーザーの代わりにタスクを実行できるエージェント(Computer-Using Agent:CUA)モデルの実用的な応用例です。

簡潔に言えば、「Computer use」はAIが実際にパソコンを操作して、ユーザーの代わりに作業をこなす新しい技術です。

whshidowhshido

Computer use を使う時の注意点

❗下記のページに記載がありますが、まだβ版ですので、
 認証済みの環境やハイリスクな用途での利用は避けるよう警告されています。
https://platform.openai.com/docs/guides/tools-computer-use

whshidowhshido

Computer use の仕組み

ざっくりと処理の流れを理解
公式ドキュメントを翻訳してみました。
スクリーンショットを送って、操作(アクション)を決定し、その操作を実行、
その後、更新されたスクリーンショットを送って、操作(アクション)を決定し、その操作を実行、
・・・を繰り返す感じですね

  1. モデルにリクエストを送信する:利用可能なツールの一部としてコンピュータツールを追加し、ディスプレイサイズと環境を指定します。最初のリクエストに、環境の初期状態のスクリーンショットを含めることもできます。
  1. モデルからのレスポンスを受信する:レスポンスに computer_call 項目が含まれているかどうかを確認します。このツール呼び出しには、指定された目標に向かって進むための推奨アクションが含まれています。これらのアクションには、特定の位置をクリックする、テキストを入力する、スクロールする、待機するなどがあります。
  1. 要求されたアクションを実行する:コンピュータまたはブラウザ環境で、対応するアクションをコードで実行します。
  1. 更新された状態をキャプチャする:アクションを実行した後、環境の更新された状態をスクリーンショットとしてキャプチャします。
  1. 繰り返し:更新された状態を computer_call_output として新しいリクエストを送信し、モデルがアクションのリクエストを停止するか、ユーザーが停止するまでこのループを繰り返します。

whshidowhshido

(悲しいオチ)使えなかった

ちゃんと最初に調べろよなのですが、Tier3以上のユーザ以外はサポートされてませんでした。。
なので、使える人はぜひ試してみてください。。

whshidowhshido

代替はとりあえずBrowser Use?

指定できるモデルがComputer Useのようにその用途専用に作られたものではないですが、
体験的には同じようなものができるので、まずはこっちで味見しようと思います。。
https://browser-use.com/