🧪

E2Eテスト自動化:agent-browser vs playwright-mcp 比較してみた

に公開

はじめに

Claude Code を使った E2E テスト自動化において、agent-browser(Vercel Agent Browser)playwright-mcp のどちらを使うべきか悩んでいる方も多いのではないでしょうか。

今回は同じテストスイートを両方で5回ずつ実行し、実行時間・コスト・バグ検出率を比較しました。

検証環境

項目
Claude Code v2.1.50
モデル Claude Sonnet 4.6
テストケース数 7件
実行回数 各5回

Claude Codeは agentest の MCP 経由でテストケースを取得し、実行結果を記録します。

agentestとは、MCP経由でテストケースの取得・期待結果の記録を行うツールです。

テストは、正しく実行できれば7件中2件がFAIL(バグを検出)として記録される設計です。つまり「2件がFAILになること」が正しいテスト結果です。

テストの実行自体はどのケースでも全件完了しています。評価軸は「本来エラーになるべき2件をエージェントが正しくエラーとして記録できたか」です。結果表の「エラー」はagentestの期待結果にエラーと記録された件数で、この数が多い方がバグを正しく検出できていることを意味します。

プロンプト

agentestのプロジェクト名の「テストスイート名」をagent-browser or playwright-mcpを使って実行して
テストユーザーは、user_id/passwordを使ってください

agent-browser

実行時間 トークン PASS件数 エラー件数
1回目 4m 39s 3.6k 7 0
2回目 4m 23s 3.9k 5 2
3回目 4m 55s 4.0k 5 2
4回目 5m 30s 4.0k 6 1
5回目 4m 52s 4.3k 6 1
合計 平均 4m 52s 平均 3.96k 29 6

playwright-mcp

実行時間 トークン PASS件数 エラー件数
1回目 4m 58s 4.5k 7 0
2回目 5m 34s 4.0k 7 0
3回目 5m 07s 5.0k 5 2
4回目 5m 24s 5.0k 6 1
5回目 6m 25s 85.6k 6 1
合計 平均 5m 30s 平均 20.8k 31 4

比較サマリー

本来エラーになるべき件数は2件/回 × 5回 = 10件

指標 agent-browser playwright-mcp
平均実行時間 4m 52s 5m 30s
平均トークン(5回目除く) 3.96k 4.88k
バグ検出率(エラー記録数/期待10件) 60%(6/10) 40%(4/10)

期待結果の判定

成功と判断されたパターン

失敗と判断されたパターン

まとめ

今回の検証では、実行時間・コスト安定性・バグ検出率の全てで agent-browser が優位という結果になりました。

Discussion