🖱️

Computer Use系のCUA情勢調査(2025年10月)とClaude Code向けMCPサーバ選定

に公開

モチベーション

Claude 4.5 Sonnet はコーディング性能が注目されがちですが
人間と同様に画面を見て自動操作を行う能力も高まっています
コンピュータ操作の能力を測るベンチマーク OSWorld でも61.4%と最高水準をマークしています

…となると「Claude CodeのBash経由に加えてGUIレベルでも直接PCを操作させたい!」

推測)
CUA自体はMCPがデファクトになる前から研究開発が進んでいたため
既存のフレームワークも根強く、ユーザが分散

自己紹介

実はB4から始めた「LLMを用いた3D生成」研究で
フレームワークの一部にCUAを組み込んだ経験があり

https://github.com/3dify-project/dify-mcp-client
その頃(後述するUI-TARSが最強の時代)の知識はあるものの
良い機会なので、現在のトレンドを網羅的に再調査しました

CUA(Computer Using Agent)とは

AIモデル(主にマルチモーダルLLM)がComputer環境とインタラクションを行う

  1. スクリーンショット等の(Observation Space)から現在の情報を取得
  2. 次に実行すべきツール(Action Space)を選択し実行する。
    例:left_click(x,y)でGUI画面のx,y座標を左クリック

以降 1 ↔ 2 を繰り返す

以下のSurvay論文から引用した図
以下のSurvay論文から引用した分類図

※今回Browserは調査対象外です

ブラウザのDOMツリー等、ブラウザに特化したフレームワークもありますが
今回は含めず、一般のGUIで自動操作が可能なComputer Useに絞って調査しました

調査方法

1. アプデ調査

既に知っていたリポジトリやCUAモデルのアップデートを確認

2. CUAの厳選集

  • 📝arXiv(2025)Jan
    – 最新のSurvey論文:強化学習やコンテキスト管理の戦略も含むため、初心者向けではない
  • ranpox/awesome-computer-use
    – CUA関連の動画・ブログ・論文・プロジェクト集。⭐️445。
  • trycua/acu
    – AI エージェントによるコンピュータ操作に関するキュレーションリスト。⭐️1.4K。

3. Google検索でMCPサーバを探索

{CUA, Computer Use, PyAutoGUI...} + MCP server

4. ChatGPTの「ウェブ検索」機能

GitHubリポジトリの詳細な情報の取得に苦労していた
➡README.mdの一部しか見えない?

5. ChatGPTの有料機能「エージェント」でCUA体験

そこでChatGPTの「エージェント」機能(仮想Computer Using Agent)を活用

実際にGitHubのサイトを調査する動画

ChatGPTのエージェントのTerminalの画像

6. 内容が正しいかリンクを精査

意外と⭐の数や、依存ライブラリに間違いがあった
※ 誤りに気づいたらコメント欄で指摘して頂けると幸いです

調査結果

選定基準

  • Computer画面全般の操作(WEBブラウザ特化型は除外)
  • 注目度:GitHubのstarの数(※2025/10/06 時点)
  • MCPサーバとしてClaude Codeから使えそうか(※⭐は少ないがピックアップ)

フレームワーク一覧表

GitHubプロジェクト star OS 自動操作関連
ライブラリ
MCP
備考
trycua/cua ★9.8K Win
Mac
Linux
PyAutoGUI🥇
pylume
VM推奨・クラウド志向
bytebot-ai/bytebot ★8.6K Linux bytebotd Daemon
Nut.js🌰組込
一式揃ったUbuntu仮想コンテナGUI。k8sのHelmでも提供
anthropics/claude-quickstarts/
computer-use-demo
★10K Linux Xdotool
X11VNC
- Claude 用デモ
(Dockerベース)
showlab/computer_use_ootb
📝arXiv(2024)
★1.8K Win
Mac
Linux
PyAutoGUI🥇
Streamlit
UIAutomation
- デモを拡張しShowUI等の他のモデルも対応
bytedance/UI‑TARS‑desktop
📝arXiv(2025)
★19.1K Win
Mac
Linux
Nut.js🌰 UI-TARS等のモデル専用パーサ・Electronアプリ他、CLI・SDKも提供。汎用部分はMCP化
simular-ai/Agent-S
S1📝ICLR(2025)
S2📝COLM(2025)
S3📝arXiv(2025)
★6.6K Win
Mac
Linux
PyAutoGUI🥇
PyObjC
PyWin32
- 最新版のCUAフレームワークS3がOSworldベンチでSOTA
xlang-ai/OpenCUA
📝arXiv(2025)
★500 Win
Mac
Linux
PyAutoGUI🥇 データセット(+作成ツール)・OpenCUAモデル
CursorTouch/Windows‑MCP ★3K Win PyAutoGUI🥇
PyWinAuto
Pillow
Windows専用CUA MCPサーバ
claude‑did‑this/MCPControl ★238 Win AutoHotkey
keysender
clipboardy
sharp
Windows特化MCPサーバ
Nut.jsを排除
domdomegg/
computer-use-mcp
★78 Win
Mac
Linux
Nut.js🌰
Imagemin
npmで使える。Claudeのdemoのアプデに追従
AB498/
computer-control-mcp
★47 Win
Mac
Linux
PyAutoGUI🥇
PyGetWindow
PyWinCtl
RapidOCR
ONNXRuntime
外部依存0。ウィンドウ管理も
hetaobackend/
mcp-pyautogui-server
★27 Win
Mac
Linux
PyAutoGUI🥇
Pillow
最小構成のMCPサーバ
agiresearch/LiteCUA
📝arXiv(2025)
★12 Win
Mac
Linux
PyAutoGUI🥇
★4.7K AIOS
MCPサーバ前提で再構築された新興CUA
マルチVMのスケジューリング
⭐が1桁のMCPサーバ
プロジェクト star 対応環境 自動操作関連
ライブラリ
MCP 備考
spencerkinney/
computer-use-mcp
★3 Win
Mac
Linux
orgo Pythonのorgoを使用したMCPサーバ
jasondsmith72/
total-pc-control
★2 Win
Mac
Linux
Nut.js🌰 Nut.jsを使用したMCPサーバ

GUI自動化ライブラリ

GitHubリポジトリ star OS 使用API 備考
jordansissel/xdotool ★3.6K Linux (X11) Xlib
XTEST
CLI経由の
GUI操作
Screen管理
asweigart/pyautogui ★7.5K Win
Mac
Linux
ctypes→WinAPI
rubicon-objc→Cocoa API
Xlib→X11
🥇Python
nut-tree/nut.js ★2.9K Win
Mac
Linux
libnut-win32→WinAPI
libnut-darwin→Quartz/CoreGraphics
libnut-linux→X11
🌰Node.js

WEBブラウザ特化のCUA

※BrowserUse系の最新情勢調査にも需要がある場合♡等でアピールして頂けると励みになります
例)

ライブラリ star 対応環境 使用API 備考
EmergenceAI/Agent-E
📝arXiv(2024)
★1.2K Win/Mac/Linux PlayWright🎭
PDFPlumber
-

結論

個人ユーザ視点で今すぐ使えるMCPサーバは以下

Windowsなら
https://github.com/CursorTouch/Windows-MCP

Macなら仮想desktopで
https://github.com/trycua/cua/tree/main/libs/python/mcp-server


bytebotもVirtual Desktopだが、よりクラウドに特化した本格派
NestJSを用いてSSE MCPサーバをさらす枠組み自体は提供 実装経緯(MCP対応のIssue)
https://github.com/bytebot-ai/bytebot/blob/main/docs/core-concepts/desktop-environment.mdx#mcp-control

Claudeと相性が良く、開発継続中なのは
https://github.com/domdomegg/computer-use-mcp

展望

上記のMCPサーバ試してみたら、また記事にするかもしれません

どれも満足いかない場合、npxで追加インストール無しで
Claude Code等から叩けるMCPサーバを自作します

OS(特にMacのRetina Display)で問題になりやすいのが
ScaleFactor(解像度の倍率調整)なので
https://github.com/bytedance/UI-TARS-desktop/pull/645
そこらへんをVLMが自律的に調整できるMCPツールを加える…等を思案中

例)
中央をクリックしたはずなのに、左上に寄った箇所をクリックしたことを確認
ScaleFactor 1 → 1.5 に修正して再テスト

Discussion