Zenn
🤖

CUA - Computer-Using Agent:コンピュータを使いこなすAI

2025/03/14に公開

Computer-Using Agent (CUA) とは

OpenAIが発表した「Computer-Using Agent(CUA)」は、グラフィカルユーザーインターフェース(GUI)を通じてコンピュータを操作できる革新的なAIモデルです。人間のように画面を見て、ボタンをクリックし、フォームに入力し、メニューをナビゲートするという、これまでのAIにはなかった能力を持っています。

CUAは「Operator」という形で研究プレビューとして公開されており、ユーザーは自然言語で指示するだけで、複雑なコンピュータタスクを実行できるようになります。例えば「来週のニューヨーク行きの航空券を予約して」と言うだけで、Operatorは旅行サイトにアクセスし、フライトを検索し、予約プロセスを完了させることができます。

CUAの仕組み

CUAは、スクリーンショットから得られるピクセルデータを処理して画面上の状況を理解し、人間のようにインターフェースと対話します。これにより、プラットフォーム固有のAPIを必要とせずに様々なアプリケーションを操作できます。その処理は主に3つのステップに分けられます:

1. 認識(Perception)

CUAはコンピュータ画面のスクリーンショットを撮影し、デジタル環境のコンテキストを理解します。この視覚的な入力が意思決定の基盤となります。

2. 推論(Reasoning)

思考連鎖(chain-of-thought)推論を活用して、観察結果を評価し、中間ステップ間の進捗を追跡します。過去と現在のスクリーンショットを分析することで、システムは新しい課題や予期せぬ変化に動的に適応します。

3. 行動(Action)

仮想マウスとキーボードを使用して、入力、クリック、スクロールなどのタスクを実行します。パスワードの処理やCAPTCHAの解決など、機密性の高いタスクについては、セキュリティを確保するためにユーザーの確認を求めます。

この構造化されたワークフローにより、CUAは複雑な多段階のタスクをナビゲートし、エラーに遭遇した場合に自己修正することができ、デジタル問題解決のための強力なツールとなっています。

CUAの主要な機能とベンチマーク

CUAは、コンピュータ使用とブラウザベースのタスクの両方で新しいベンチマークを設定し、異なる環境での柔軟性を証明しています。その性能は、OSWorld、WebArena、WebVoyagerなどのプラットフォームを使用して評価されています:

  • OSWorld: CUAは一般的なコンピュータ使用タスクで38.1%の成功率を達成し、以前の最先端(SOTA)結果である22.0%を大幅に上回りました。
  • WebArena: eコマースやコンテンツ管理の実世界タスクをシミュレートするこのベンチマークでは、CUAは58.1%のスコアを獲得し、以前のSOTAの36.2%を上回りました。
  • WebVoyager: Amazon、GitHubなどのライブウェブサイトとの対話をテストし、CUAは87%の成功率で人間のパフォーマンスに匹敵しました。

これらのベンチマークは、画面、マウス、キーボードという単一の一般的なインターフェースを使用して、デジタル環境全体で効果的に動作するCUAの能力を強調しています。ただし、WebArenaタスクのようなより複雑なシナリオでは、人間の成功率の方が高いため、まだ改善の余地があります。

CUAの高度な機能:柔軟性と適応性

CUAの最も注目すべき側面の1つは、タスクを複数のステップに分解し、課題に直面したときに動的に適応する能力です。例えば、ウェブページが正しく読み込まれない場合や、タスクが予想されるパスから逸脱した場合、CUAはリアルタイムで戦略を調整できます。この柔軟性は、GUI認識と構造化された問題解決の統合から生まれています。

CUAの安全性プロトコル

OpenAIは、AIシステムにデジタル環境へのアクセスを与えることに関連するリスクを認識し、CUAの開発において安全性を優先しています。主な対策には以下が含まれます:

  • ユーザー確認: パスワードや個人データの処理など、機密性の高いアクションについては、CUAは明示的なユーザー承認を要求します。
  • Operatorシステムカード: 詳細なシステムカードが導入されている安全対策を概説し、透明性と説明責任を確保します。

Operator研究プレビューを通じたCUAの初期リリースは、米国のProティアユーザーに限定されており、OpenAIは実世界のフィードバックを収集し、グローバル展開前にシステムを改良することができます。

CUAのアプリケーションと将来の可能性

CUAは、退屈なワークフローの自動化から身体的制限のある個人のためのアクセシビリティソリューションの実現まで、幅広いアプリケーションへの道を開きます。潜在的なユースケースには以下が含まれます:

  • 管理アシスタンス: フォーム入力、データ入力、メール管理などのタスクの自動化。
  • Eコマース管理: オンラインストアの在庫のナビゲーションと更新、または顧客注文の処理。
  • 教育と研究: オンラインリソースからのデータ収集と整理の支援。

タスク固有のAPIの必要性を排除することで、CUAは比類のない柔軟性を提供し、開発者や企業が既存のワークフローに統合しやすくなります。

CUAの課題と次のステップ

CUAは大きな前進を表していますが、まだ限界があります:

  • 複雑なタスク処理: WebArenaのような複雑なタスクでの成功率は、人間のパフォーマンスと比較して改善の余地があります。
  • 一般化: より広範なユースケースとデジタル環境への適応には、さらなるトレーニングと微調整が必要です。
  • 倫理的考慮: 責任ある使用を確保し、誤用のリスクを最小化することは、継続的な優先事項です。

OpenAIの段階的な展開戦略により、ユーザーフィードバックを活用してシステムを継続的に改善することができます。CUAが進化するにつれて、AI-人間コラボレーションの境界を再定義する可能性があります。

まとめ

Computer-Using Agent(CUA)は、AIがデジタルインターフェースと対話する方法に革命をもたらす技術です。スクリーンショットを理解し、マウスとキーボードを操作する能力により、CUAは人間のようにコンピュータを使用できます。

この技術はまだ初期段階ですが、すでに印象的な結果を示しており、将来的にはより多くのデジタルタスクの自動化と支援が可能になるでしょう。OpenAIの安全性への取り組みと段階的な展開アプローチにより、CUAは責任を持って開発され、私たちのデジタル生活をより良くするために活用されることが期待されます。

今後の開発と応用に注目していきましょう。


実際に触ってみた体験談

どうも、GOROmanです。上記で解説したCUAという技術、実際に「AIがコンピュータを自分で操作する」というSFみたいな技術を触ってみました。これが思った以上にヤバかったので、実体験として共有します。

OpenAIが開発した「コンピュータ操作エージェント」、名前からしてもうヤバさが伝わってきますよね。簡単に言うと、AIが画面を見て、「あ、ここクリックすれば良さそう」「このフォームに入力しよう」みたいな判断を自分でして、実際にマウスとキーボードを操作してくれるシステムです。

映画アイアンマンのジャービスみたいなSFの世界観が、もう目の前まで来ている感じです。

コンピュータ操作エージェントの仕組み

事前に技術的な詳細を理解していると、APIを使ったときの挙動も理解しやすいので、まずは簡単に仕組みを解説します。

このシステムは大きく分けて3つのコンポーネントで構成されています:

  1. 視覚システム: 画面をキャプチャして解析するAI
  2. 意思決定エンジン: 何をすべきか判断するAI
  3. 操作システム: マウスとキーボードを実際に動かす部分

例えば「天気を調べてメールで送って」と指示すると:

視覚AI: 「今デスクトップ画面が表示されている。ブラウザのアイコンが左下にある」
意思決定AI: 「まずブラウザを開くべき」
操作システム: 「左下のChromeアイコンをクリック」

視覚AI: 「ブラウザが開いた。検索バーがある」
意思決定AI: 「検索バーに『東京 天気』と入力する」
操作システム: 「検索バーをクリックして『東京 天気』とタイプ」

みたいな感じでAI同士が会話しながら処理を進めていくイメージです。

API実装:思ったより簡単だった

実際にAPIを触ってみましたが、意外と実装は簡単です。基本的なNode.jsでの実装例を紹介します:

import axios from 'axios';

// 基本設定
const API_KEY = 'your_openai_api_key'; // ← ここは自分のキーに置き換えてね
const API_URL = 'https://api.openai.com/v1/computer-agent';

// エージェントにタスクを依頼する関数
async function runComputerAgent(taskDescription) {
  try {
    const response = await axios.post(
      API_URL,
      {
        task: taskDescription,
        allowed_apps: ["chrome", "notepad", "excel"], // 使用許可するアプリ
        screen_recording: true, // 操作の録画(デバッグ用)
        confirmation_level: "high" // 重要な操作前に確認を求めるレベル
      },
      {
        headers: {
          'Authorization': `Bearer ${API_KEY}`,
          'Content-Type': 'application/json'
        }
      }
    );
    
    return response.data;
  } catch (error) {
    console.error('エラーが発生しました:', error.response?.data || error);
    throw error;
  }
}

// 使用例
async function main() {
  const result = await runComputerAgent(
    "Googleで『最新のAIニュース』を検索して、最初の3つの記事タイトルをメモ帳にまとめてください"
  );
  
  console.log('タスクID:', result.task_id);
  console.log('実行状況URL:', result.status_url);
}

main();

これだけで、あなたのPCでAIがGoogle検索して、その結果をメモ帳にまとめてくれます。怖いくらい簡単ですよね。

ユースケース:何ができるの?

実際に試してみて、「これは便利だ!」と思ったユースケースをいくつか紹介します:

1. データ収集の自動化

// 株価データを毎日収集する例
const collectStockData = async (ticker) => {
  return await runComputerAgent(`
    1. Yahoo!ファイナンスで${ticker}の株価チャートを開く
    2. 過去1ヶ月のデータをCSVでダウンロード
    3. ダウンロードしたCSVを開き、終値だけを抽出
    4. 抽出したデータをstock_data.csvに追記(日付、ティッカー、終値の形式で)
  `);
};

// 複数銘柄を処理
const tickers = ['7203.T', '9984.T', '6758.T'];
for (const ticker of tickers) {
  await collectStockData(ticker);
}

これまでだとSeleniumとかPuppeteerとか使って頑張ってスクレイピングコード書いてたけど、それが自然言語の指示だけでできちゃうのがヤバすぎる。しかも画面UIが変わっても勝手に対応してくれる!

2. 退屈な作業の自動化

毎月やってる経費精算とか、マジで退屈なんですよね...。そういうのも任せられます:

await runComputerAgent(`
  1. 社内ポータルにログインして経費精算ページを開く
  2. デスクトップの「経費2024-03.xlsx」を開く
  3. エクセルのデータを経費精算フォームに転記する
  4. 添付ファイルとして「receipts.zip」をアップロード
  5. 内容を確認して申請ボタンを押す
`);

3. テストの自動化

UIテストって、本当に面倒くさいですよね。特にフロントエンドが頻繁に変わるアプリだと、テストコードの保守が大変...。

// テスト関数の例
const testUserRegistration = async () => {
  return await runComputerAgent(`
    1. ブラウザでhttp://myapp.localを開く
    2. "新規登録"ボタンをクリック
    3. フォームに以下の情報を入力:
       - ユーザー名: testuser123
       - メール: test@example.com
       - パスワード: TestPass123!
       - パスワード確認: TestPass123!
    4. "登録"ボタンをクリック
    5. 登録成功メッセージが表示されたか確認
    6. ログインページに移動したか確認
    7. テスト結果をJSONファイルに保存
  `);
};

これまでのUIテストツールとの大きな違いは、「画面のどこにボタンがあるか」とか「どんなCSSセレクタを使うか」みたいな低レベルの実装を気にしなくていいこと。人間が見てるのと同じように「あ、登録ボタンはここだな」って認識してくれるんです。

気づいた問題点と対策

実際に使ってみて気づいた問題点もいくつかあります:

1. 認証とセキュリティ

当然ながら、AIにパスワードとか見られちゃいますよね。これは結構怖い。解決策としては:

// センシティブな情報を扱う場合の例
await runComputerAgent(`
  1. ブラウザでログインページを開く
  2. ユーザー名フィールドに「admin」と入力
  3. パスワードを入力する準備ができたら通知してください(人間が入力します)
`);

// ↑ここでAIが停止して人間にパスワード入力を促す
// 人間がパスワードを入力した後、続行

await continueTask(taskId, "パスワードの入力が完了しました。続けてください");

こんな感じで、センシティブな部分だけ人間が介入するハイブリッド方式がおすすめです。

2. エラー処理

予期しないポップアップとかエラーダイアログが出ると混乱することも。以下のように対策できます:

await runComputerAgent(`
  1. アプリケーションを開く
  2. データをインポートする
  3. もし"ファイルが見つかりません"というエラーが出たら:
     a. "OK"をクリック
     b. "sample.csv"を選択してインポート
  4. もし"更新してもよろしいですか?"と聞かれたら:
     a. "はい"をクリック
`);

あらかじめ想定されるエラーパターンと対処法を示しておくと安心です。

API高度活用テクニック

もうちょっと踏み込んだ使い方も紹介します。

1. カスタム前処理と後処理

// マルチステップ処理の例
async function processWebData() {
  // 1. データ取得フェーズ
  const extractionResult = await runComputerAgent(
    "Webサイトからデータテーブルを抽出してCSVに保存"
  );
  
  // 2. 人間による確認
  console.log("データを確認してください:", extractionResult.output_file);
  const userConfirmation = await promptUser("データは正しいですか?(yes/no)");
  
  if (userConfirmation === 'yes') {
    // 3. 続行: データ処理
    await runComputerAgent(
      `抽出されたCSVファイル${extractionResult.output_file}を開いて分析`
    );
  } else {
    console.log("処理を中止しました");
  }
}

2. 並列処理

// 複数タスクを並列実行
async function parallelTasks() {
  const tasks = [
    runComputerAgent("タスク1の説明"),
    runComputerAgent("タスク2の説明"),
    runComputerAgent("タスク3の説明")
  ];
  
  const results = await Promise.all(tasks);
  console.log("全タスク完了:", results);
}

ただし、同じ画面を複数のエージェントが操作すると混乱するので、仮想デスクトップや別ウィンドウでの実行がおすすめです。


サンプルコード一式

コード一式をGitHubにアップしました。
興味がある方はこちらから:github.com/GOROman/computer-agent-samples


GitHubで編集を提案

Discussion

ログインするとコメントできます