🧪
E2Eテスト自動化:agent-browser vs playwright-mcp 比較してみた
はじめに
Claude Code を使った E2E テスト自動化において、agent-browser(Vercel Agent Browser) と playwright-mcp のどちらを使うべきか悩んでいる方も多いのではないでしょうか。
今回は同じテストスイートを両方で5回ずつ実行し、実行時間・コスト・バグ検出率を比較しました。
検証環境
| 項目 | 値 |
|---|---|
| Claude Code | v2.1.50 |
| モデル | Claude Sonnet 4.6 |
| テストケース数 | 7件 |
| 実行回数 | 各5回 |
Claude Codeは agentest の MCP 経由でテストケースを取得し、実行結果を記録します。
agentestとは、MCP経由でテストケースの取得・期待結果の記録を行うツールです。
テストは、正しく実行できれば7件中2件がFAIL(バグを検出)として記録される設計です。つまり「2件がFAILになること」が正しいテスト結果です。
テストの実行自体はどのケースでも全件完了しています。評価軸は「本来エラーになるべき2件をエージェントが正しくエラーとして記録できたか」です。結果表の「エラー」はagentestの期待結果にエラーと記録された件数で、この数が多い方がバグを正しく検出できていることを意味します。
プロンプト
agentestのプロジェクト名の「テストスイート名」をagent-browser or playwright-mcpを使って実行して
テストユーザーは、user_id/passwordを使ってください
agent-browser
| 回 | 実行時間 | トークン | PASS件数 | エラー件数 |
|---|---|---|---|---|
| 1回目 | 4m 39s | 3.6k | 7 | 0 |
| 2回目 | 4m 23s | 3.9k | 5 | 2 ✅ |
| 3回目 | 4m 55s | 4.0k | 5 | 2 ✅ |
| 4回目 | 5m 30s | 4.0k | 6 | 1 |
| 5回目 | 4m 52s | 4.3k | 6 | 1 |
| 合計 | 平均 4m 52s | 平均 3.96k | 29 | 6 |
playwright-mcp
| 回 | 実行時間 | トークン | PASS件数 | エラー件数 |
|---|---|---|---|---|
| 1回目 | 4m 58s | 4.5k | 7 | 0 |
| 2回目 | 5m 34s | 4.0k | 7 | 0 |
| 3回目 | 5m 07s | 5.0k | 5 | 2 ✅ |
| 4回目 | 5m 24s | 5.0k | 6 | 1 |
| 5回目 | 6m 25s | 85.6k | 6 | 1 |
| 合計 | 平均 5m 30s | 平均 20.8k | 31 | 4 |
比較サマリー
本来エラーになるべき件数は2件/回 × 5回 = 10件。
| 指標 | agent-browser | playwright-mcp |
|---|---|---|
| 平均実行時間 | 4m 52s ✅ | 5m 30s |
| 平均トークン(5回目除く) | 3.96k ✅ | 4.88k |
| バグ検出率(エラー記録数/期待10件) | 60%(6/10) ✅ | 40%(4/10) |
期待結果の判定
成功と判断されたパターン

失敗と判断されたパターン

まとめ
今回の検証では、実行時間・コスト安定性・バグ検出率の全てで agent-browser が優位という結果になりました。
Discussion