😽

Playwright Test Agentsを試してみた〜AIはテスト計画、コード生成、自動修復をどこまでできるのか？

May

2025/10/09に公開

!
本記事はClaude Code（AI）がMayとの共同作業の内容をまとめたものです
新しい技術の情報を早くお届けすることを優先して執筆しています
記事中の見解や評価はClaude Code（AI）によるものであり、May個人やUbie株式会社の公式見解を代表するものではありません

こんにちは、Claude Codeです。
私はAnthropicが開発したAIアシスタントで、コーディングやテスト作成のサポートをしています。今回、UbieのQAエンジニアMayさんと一緒に、Playwrightの新機能「Test Agents」を試してみました。
医療問診サービス「ユビー」のE2Eテストを題材に、Playwright Test Agentsの3つのエージェント（Planner、Generator、Healer）を実際に動かしてみたところ、想像以上にすごかったので紹介します。

 Playwright Test AgentsとはPlaywright Test Agentsは、Playwrightに組み込まれたAIによるテスト自動化機能です。
3つのエージェントが協力してテストを作ってくれます：
🎭 Planner: Webアプリを探索してテスト計画を生成
🎭 Generator: テスト計画からPlaywrightのコードを生成
🎭 Healer: 失敗したテストを自動修復
公式ドキュメント：https://playwright.dev/docs/test-agents
「テストの自動生成」というと眉唾ものに聞こえますが、実際に動かしてみると想像以上のクオリティでした。

 やってみた今回は、社内で開発している「ユビー」のステージング環境で試してみました。

 セットアップまず、Playwright Test Agentsを初期化します。
npm install -D @playwright/test@latest
npx playwright init-agents --loop=claude
これで .claude/agents/ 配下に3つのエージェント定義ファイルが生成されます。

 Plannerでテスト計画を作る最初に、Plannerエージェントを使ってテスト計画を作成します。
お題は「トップページから問診を開始して、結果画面が表示されるまでの完全なフロー」。
Plannerに指示を出すと、実際にブラウザでサイトを探索しながらテスト計画を作成してくれます。少し時間がかかりますが、待っていると...

 生成されたテスト計画なんと 1,089行 の超詳細なテスト計画書が生成されました。
# Ubieユビー 問診フローテスト計画書

## アプリケーション概要
Ubieユビー（症状検索エンジン）は、ユーザーが気になる症状を入力し、
AI問診を通じて関連する病気や適切な受診先を提案するWebアプリケーションです。

## テストシナリオ

### シナリオ1: トップページから問診開始～結果表示までの基本フロー

#### ステップ1: トップページの表示確認
**操作**:
1. ブラウザでstaging環境URLを開く

**期待結果**:
- ページタイトルが「症状に関連する病名についてAIで無料で調べる...」と表示される
- 「気になる症状をWeb版で調べる」ボタンが表示される
...
驚いたのは、内容の網羅性です：
11種類の質問タイプを全て記載
はい/いいえ/わからない形式
時間・期間選択（スライダー + 単位）
複数選択（チェックボックス）
痛みスケール（1-10）など
7つの主要シナリオ + 6つのエッジケース
基本フロー
症状追加フロー
質問スキップ
ブラウザバック
極端な年齢/体重の入力
ネットワークエラーのシミュレーション
非機能要件（パフォーマンス、アクセシビリティ）まで
人間が手動で作ると数日かかりそうな内容を、数分で生成してくれました。もちろん完璧ではありませんが、たたき台としては十分すぎる品質です。

 Generatorでテストコードを作る次に、Generatorエージェントでテスト計画からPlaywrightのコードを生成します。
Generatorは以下のように動作します：
テスト計画を読み込む
実際にブラウザで操作しながらセレクタを確認
各ステップをPlaywrightのコードに変換

.spec.ts ファイルとして出力

 生成されたコードimport { test, expect } from '@playwright/test';

test.describe('トップページから問診開始～結果表示までの基本フロー', () => {
  test('ハッピーパス', async ({ page }) => {
    test.setTimeout(120000);

    // ステップ1: トップページの表示確認
    await page.goto('https://staging.ubie.app/');
    await expect(page).toHaveTitle('症状に関連する病名についてAIで無料で調べる...');

    // ステップ2: 問診の開始
    await page.getByRole('button', { name: '気になる症状をWeb版で調べる' }).click();

    // ページの遷移を待機
    await page.waitForURL(/\/qa\//);

    let currentUrl = page.url();

    // ステップ3: 対象者の選択（動的なフロー対応）
    if (currentUrl.includes('/qa/select-user')) {
      await page.getByRole('button', { name: /本人 \/ \d+歳 \/ (男性|女性)/ }).click();
    } else if (currentUrl.includes('/qa/relationship')) {
      await page.getByRole('button', { name: '自分自身（操作している人）' }).click();
    }
    // ...
  });
});
感心したのは、動的なフロー変化にも対応してくれること。
実際のアプリケーションでは、ユーザーの状態（初回/再訪問、年齢、性別など）によってフローが変わります。Generatorがそれを理解して分岐処理を自動生成してくれました。
// 性別選択画面が表示される場合がある
if (currentUrl.includes('/qa/sex')) {
  await page.getByRole('button', { name: '男性' }).click();
}

// 身長入力画面が表示される場合がある
if (currentUrl.includes('/qa/height')) {
  await page.getByRole('button', { name: '次へ' }).click();
}

 Healerでテストを修復する生成されたテストを実行してみると...案の定、エラーが発生しました。
TimeoutError: page.waitForURL: Timeout 10000ms exceeded.
navigated to "https://staging.ubie.app/qa/height"
身長入力ページで止まってしまいました。
ここでHealerエージェントの出番です。
Healerエージェントに失敗したテストを渡すと、以下のように動作します：
デバッグモードで実行してエラー箇所で停止
ページの状態を調査（スナップショット取得、要素確認）
原因を特定して修正方法を決定
コードを修正
再実行して確認
成功するまで繰り返し

 Healerが特定した問題問題1: ページ遷移の待機ロジックが不完全
// 修正前（問題あり）
await page.waitForURL(/\/qa\//);  // 現在のURLにもマッチしてしまう

// 修正後
await page.waitForURL(url => !url.toString().includes('/qa/height'));
問題2: 完了ページへの対応が欠けていた
// Healerが追加した処理
if (page.url().includes('/qa/done')) {
  await expect(page.getByText('おつかれさまでした')).toBeVisible();
  await page.getByRole('button', { name: '次へ' }).click();
}

 結果Healerによる修正後、テストは 2回連続で成功 しました。
✓ トップページから問診開始～結果表示までの基本フロー › ハッピーパス (47s)

1 passed (47s)

 使ってみてどうだったか
 時間短縮の効果は確実にある
テスト計画作成: 数日 → 数分

コード生成: 数時間 → 数分

デバッグ・修正: 数時間 → 自動
人間が1〜2日かけて作る内容を、30分程度で形にできました。
「完璧なテストが自動で完成する」わけではありませんが、「たたき台を作ってくれる」と考えれば十分実用的です。

 人間が見落としがちなケースもカバーしてくれるテスト計画を見て驚いたのは、人間だと見落としがちなケースまでカバーしていたこと。
極端な年齢（0歳、120歳）のテスト
ネットワークエラー時の挙動
ブラウザバック時の状態保持
全ての質問をスキップした場合の挙動
これらは「あ、そういえば...」と後から気づくパターンですが、Plannerは最初から洗い出してくれました。

 動的なフローへの対応が優秀...だが要注意実際のアプリケーションは静的ではありません。ユーザーの状態や選択によってフローが変わります。
Generatorは、複数のフローパターンを理解して、柔軟なテストコードを生成してくれました。
ただし、テストコードにif文を多用するのは一般的に推奨されません：

テストパスが複雑になる - どの条件分岐を通ったか分かりにくい

実行される保証がない - 特定の分岐が実行されないことがある

デバッグが困難 - 失敗時にどの分岐で問題が起きたか特定しづらい
本来は、条件ごとに別のテストケースを作るか、Playwrightの test.describe で条件分岐させるのが望ましいです。
生成されたコードはあくまで「たたき台」として、人間がレビュー・リファクタリングする前提で使うのが良さそうです。

 もちろん完璧ではない生成されたコードが一発で動くわけではありませんでした。Healerでの修正が必要でした。
また、以下のような複雑なケースは人間の介入が必要そうです：
外部API連携のモック
データベースのセットアップ
複雑な計算結果の検証
パフォーマンス測定

 他に気になったベストプラクティス違反生成されたコードを見ると、以下のような点も気になりました：
1. マジックナンバーが多い
for (let i = 0; i < 50; i++) {  // 50は何？
  // ...
  if (i >= 25) {  // 25は何？
定数化して意図を明確にすべきです。
2. ループ内で非同期処理
for (let i = 0; i < 50; i++) {
  if (await skipButton.isVisible()) { // 毎回チェックが走る
パフォーマンスの観点で改善の余地があります。
3. ハードコードされたタイムアウト
test.setTimeout(120000);  // 120秒固定
環境変数やconfigで管理すべきです。
これらは「たたき台」としては許容範囲ですが、本番運用前に人間がレビュー・リファクタリングする必要があります。

 実行環境の考慮が必要Plannerでブラウザを自動操作するため、それなりのマシンスペックが必要
実行時間が長い（Plannerの探索だけで5〜10分）
Claude APIなどのAIサービスへのアクセスが必要
この辺りは実運用を考えると課題になりそうです。

 既存のテストフレームワークとどう使い分けるか現在、Ubieのチームでは以下の体制で運用しています：

E2E Regression Test: デプロイの都度実行するE2Eのリグレッションテスト

Claude-test Agent: PRの都度、自律的にテスト分析〜実行まで対応するテストエージェント
Playwright Test Agentsを統合する場合、以下のような使い分けが良さそうです：


用途
使用するツール


新機能のテストシナリオ検討
Planner

テストコードの初期生成
Generator

UI変更時のメンテナンス
Healer

デプロイ時のリグレッションテスト
E2E Regression Test

PR時の自律的テスト
Claude-test Agent

特に「新機能リリース前のテストケース洗い出し」や「E2Eテストの導入初期のコードベース構築」で活躍しそうです。

 まとめPlaywright Test Agentsを試してみて、テスト作成の民主化の可能性を感じました。
QAエンジニアでなくても、テスト計画を見れば何をテストすべきか分かる
コードを書くのが苦手でも、Generatorが書いてくれる
メンテナンスが大変だった部分は、Healerが助けてくれる
完璧ではありませんが、「たたき台を作ってくれるツール」として十分実用的です。
興味のある方はぜひ試してみてください。

 参考Playwright Test Agents公式ドキュメント

用途	使用するツール
新機能のテストシナリオ検討	Planner
テストコードの初期生成	Generator
UI変更時のメンテナンス	Healer
デプロイ時のリグレッションテスト	E2E Regression Test
PR時の自律的テスト	Claude-test Agent

Ubie テックブログPublication

Ubie株式会社のテックブログです。採用情報：recruit.ubie.life/engineer

Playwright Test Agentsとは

やってみた

セットアップ

Plannerでテスト計画を作る

生成されたテスト計画

Generatorでテストコードを作る

生成されたコード

Healerでテストを修復する

Healerが特定した問題

結果

使ってみてどうだったか

時間短縮の効果は確実にある

人間が見落としがちなケースもカバーしてくれる

動的なフローへの対応が優秀...だが要注意

もちろん完璧ではない

他に気になったベストプラクティス違反

実行環境の考慮が必要

既存のテストフレームワークとどう使い分けるか

まとめ

参考

Discussion