Computer Use系のCUA情勢調査(2025年10月)とClaude Code向けMCPサーバ選定
モチベーション
Claude 4.5 Sonnet はコーディング性能が注目されがちですが
人間と同様に画面を見て自動操作を行う能力も高まっています
コンピュータ操作の能力を測るベンチマーク OSWorld でも61.4%と最高水準をマークしています
…となると「Claude CodeのBash経由に加えてGUIレベルでも直接PCを操作させたい!」
推測)
CUA自体はMCPがデファクトになる前から研究開発が進んでいたため
既存のフレームワークも根強く、ユーザが分散
自己紹介
実はB4から始めた「LLMを用いた3D生成」研究で
フレームワークの一部にCUAを組み込んだ経験があり
その頃(後述するUI-TARSが最強の時代)の知識はあるものの
良い機会なので、現在のトレンドを網羅的に再調査しました
CUA(Computer Using Agent)とは
AIモデル(主にマルチモーダルLLM)がComputer環境とインタラクションを行う
- スクリーンショット等の(Observation Space)から現在の情報を取得
- 次に実行すべきツール(Action Space)を選択し実行する。
例:left_click(x,y)でGUI画面のx,y座標を左クリック
以降 1 ↔ 2 を繰り返す

以下のSurvay論文から引用した分類図
※今回Browserは調査対象外です
ブラウザのDOMツリー等、ブラウザに特化したフレームワークもありますが
今回は含めず、一般のGUIで自動操作が可能なComputer Useに絞って調査しました
調査方法
1. アプデ調査
既に知っていたリポジトリやCUAモデルのアップデートを確認
2. CUAの厳選集
- 📝arXiv(2025)Jan
– 最新のSurvey論文:強化学習やコンテキスト管理の戦略も含むため、初心者向けではない -
ranpox/awesome-computer-use
– CUA関連の動画・ブログ・論文・プロジェクト集。⭐️445。 -
trycua/acu
– AI エージェントによるコンピュータ操作に関するキュレーションリスト。⭐️1.4K。
3. Google検索でMCPサーバを探索
{CUA, Computer Use, PyAutoGUI...} + MCP server
4. ChatGPTの「ウェブ検索」機能
GitHubリポジトリの詳細な情報の取得に苦労していた
➡README.mdの一部しか見えない?
5. ChatGPTの有料機能「エージェント」でCUA体験
そこでChatGPTの「エージェント」機能(仮想Computer Using Agent)を活用


6. 内容が正しいかリンクを精査
意外と⭐の数や、依存ライブラリに間違いがあった
※ 誤りに気づいたらコメント欄で指摘して頂けると幸いです
調査結果
選定基準
- Computer画面全般の操作(WEBブラウザ特化型は除外)
- 注目度:GitHubのstarの数(※2025/10/06 時点)
- MCPサーバとしてClaude Codeから使えそうか(※⭐は少ないがピックアップ)
フレームワーク一覧表
| GitHubプロジェクト | star | OS | 自動操作関連 ライブラリ |
MCP 鯖 |
備考 |
|---|---|---|---|---|---|
| trycua/cua | ★9.8K | Win Mac Linux |
PyAutoGUI🥇 pylume |
△ | VM推奨・クラウド志向 |
| bytebot-ai/bytebot | ★8.6K | Linux | bytebotd Daemon Nut.js🌰組込 |
〇 | 一式揃ったUbuntu仮想コンテナGUI。k8sのHelmでも提供 |
|
anthropics/claude-quickstarts/ computer-use-demo |
★10K | Linux | Xdotool X11VNC |
- | Claude 用デモ (Dockerベース) |
|
showlab/computer_use_ootb 📝arXiv(2024) |
★1.8K | Win Mac Linux |
PyAutoGUI🥇 Streamlit UIAutomation |
- | デモを拡張しShowUI等の他のモデルも対応 |
|
bytedance/UI‑TARS‑desktop 📝arXiv(2025) |
★19.1K | Win Mac Linux |
Nut.js🌰 | ○ | UI-TARS等のモデル専用パーサ・Electronアプリ他、CLI・SDKも提供。汎用部分はMCP化 |
|
simular-ai/Agent-S S1📝ICLR(2025) S2📝COLM(2025) S3📝arXiv(2025) |
★6.6K | Win Mac Linux |
PyAutoGUI🥇 PyObjC PyWin32 |
- | 最新版のCUAフレームワークS3がOSworldベンチでSOTA |
|
xlang-ai/OpenCUA 📝arXiv(2025) |
★500 | Win Mac Linux |
PyAutoGUI🥇 | – | データセット(+作成ツール)・OpenCUAモデル |
| CursorTouch/Windows‑MCP | ★3K | Win | PyAutoGUI🥇 PyWinAuto Pillow |
◎ | Windows専用CUA MCPサーバ |
| claude‑did‑this/MCPControl | ★238 | Win | AutoHotkey keysender clipboardy sharp |
◎ | Windows特化MCPサーバ Nut.jsを排除 |
|
domdomegg/ computer-use-mcp |
★78 | Win Mac Linux |
Nut.js🌰 Imagemin |
◎ | npmで使える。Claudeのdemoのアプデに追従 |
|
AB498/ computer-control-mcp |
★47 | Win Mac Linux |
PyAutoGUI🥇 PyGetWindow PyWinCtl RapidOCR ONNXRuntime |
◎ | 外部依存0。ウィンドウ管理も |
|
hetaobackend/ mcp-pyautogui-server |
★27 | Win Mac Linux |
PyAutoGUI🥇 Pillow |
◎ | 最小構成のMCPサーバ |
|
agiresearch/LiteCUA 📝arXiv(2025) |
★12 | Win Mac Linux |
PyAutoGUI🥇 ★4.7K AIOS |
〇 | MCPサーバ前提で再構築された新興CUA マルチVMのスケジューリング |
⭐が1桁のMCPサーバ
| プロジェクト | star | 対応環境 | 自動操作関連 ライブラリ |
MCP | 備考 |
|---|---|---|---|---|---|
| spencerkinney/ computer-use-mcp |
★3 | Win Mac Linux |
orgo | ◎ | Pythonのorgoを使用したMCPサーバ |
|
jasondsmith72/ total-pc-control |
★2 | Win Mac Linux |
Nut.js🌰 | ◎ | Nut.jsを使用したMCPサーバ |
GUI自動化ライブラリ
| GitHubリポジトリ | star | OS | 使用API | 備考 |
|---|---|---|---|---|
| jordansissel/xdotool | ★3.6K | Linux (X11) | Xlib XTEST |
CLI経由の GUI操作 Screen管理 |
| asweigart/pyautogui | ★7.5K | Win Mac Linux |
ctypes→WinAPIrubicon-objc→ Cocoa APIXlib→ X11
|
🥇Python |
| nut-tree/nut.js | ★2.9K | Win Mac Linux |
libnut-win32→WinAPIlibnut-darwin→ Quartz/CoreGraphicslibnut-linux→ X11
|
🌰Node.js |
WEBブラウザ特化のCUA
※BrowserUse系の最新情勢調査にも需要がある場合♡等でアピールして頂けると励みになります
例)
| ライブラリ | star | 対応環境 | 使用API | 備考 |
|---|---|---|---|---|
|
EmergenceAI/Agent-E 📝arXiv(2024) |
★1.2K | Win/Mac/Linux | PlayWright🎭 PDFPlumber |
- |
結論
個人ユーザ視点で今すぐ使えるMCPサーバは以下
Windowsなら
Macなら仮想desktopで
bytebotもVirtual Desktopだが、よりクラウドに特化した本格派
NestJSを用いてSSE MCPサーバをさらす枠組み自体は提供 実装経緯(MCP対応のIssue)
Claudeと相性が良く、開発継続中なのは
展望
上記のMCPサーバ試してみたら、また記事にするかもしれません
どれも満足いかない場合、npxで追加インストール無しで
Claude Code等から叩けるMCPサーバを自作します
OS(特にMacのRetina Display)で問題になりやすいのが
ScaleFactor(解像度の倍率調整)なので
そこらへんをVLMが自律的に調整できるMCPツールを加える…等を思案中
例)
中央をクリックしたはずなのに、左上に寄った箇所をクリックしたことを確認
ScaleFactor 1 → 1.5 に修正して再テスト
Discussion