【実験5:役割分担レビュー】Claude Code/Gemini/Codex/Cursor/Amp/Droidに同じアプリを実装させてみた
1. はじめに - 実験4から生まれた新しい問い
実験4では、各AIが自分の実装コードを自己レビューする能力を測定しました。その結果、興味深い傾向が見えてきました。
実験4の結果の振り返り
自己レビューの発見数:
- Cursor: 7件(最多)
- Gemini, Droid, Qwen: 2件
- Multi-AI: 1件
- Claude, Codex, Amp: 0件
客観評価の結果:
- 全AI: CodeRabbitとSecurityレビューで0件(全て合格)
実験4の総合ランキング:
- Cursor: 94点 ← 自己レビュー7件が高評価
- Gemini, Droid, Qwen: 84点
- Multi-AI: 82点
- Claude, Codex, Amp: 80点 ← 自己レビュー0件
実験4の評価方式の特徴
実験4では「自己レビューで多くの問題を発見するほど高スコア」という評価方式でした。これは「自己認識能力」を測定する目的で設計されました。
しかし、この結果には重要な疑問が残りました:
-
Cursorの7件は何を意味するのか?
- 優れた自己認識なのか?
- 実装品質が低いだけなのか?
- 他のAIも同じ問題を発見するのか?
-
Claude/Codex/Ampの0件は何を意味するのか?
- 実装が本当に完璧なのか?
- 自己評価が甘いだけなのか?
- 他のAIがレビューしたら問題が見つかるのか?
実験5の根本的な発想転換
実験4への疑問を考える中で、もっと根本的な問いに気づきました:
「そもそも、1人のレビュアーに全てを期待するのが間違っているのでは?」
人間のチーム開発を考えると:
- セキュリティエンジニア → セキュリティレビュー
- パフォーマンスエンジニア → パフォーマンスレビュー
- PMレビュアー → ドキュメント・完成度レビュー
- アーキテクト → アーキテクチャレビュー
誰も「1人の完璧なレビュアー」を探さない。それぞれの専門家が、それぞれの視点でレビューする。
実験5の新しいアプローチ
実験5では、この「専門家による役割分担レビュー」をAIで再現することにしました:
実験4: 各AIが自分のコードを包括的に自己レビュー
→ 自己認識能力を測定
実験5: 各AIが専門領域に特化してCursorのコードをレビュー
→ 専門性の深さと役割分担の有効性を測定
重要な実験設計の意図:
実験5では、各AIに「全てをレビューしてください」とは言っていません。むしろ、意図的に専門領域を割り当てました。
これにより、以下を検証できると考えました:
- 各AIは専門領域で深い分析ができるか
- 専門家による役割分担は有効か
- 包括的レビュー vs 専門特化レビューの違い
※ 本記事は筆者のアイデアを元に生成AI(Claude)が自動作成したものです。必要に応じて追加の確認や調査を推奨します。
2. 実験設計 - 専門家チームとしてのレビュー
2.1 実験の対象コード
レビュー対象: Cursor実装のPomodoroTODOアプリ
Cursorを選んだ理由:
- 実験4で7件の自己問題を報告
- 他の専門家(AI)の見解を確認しやすい
- 独立した実装のため、他のAIへのバイアスがない
対象ファイル:
-
app.js: アプリケーションロジック -
index.html: UI構造 -
style.css: スタイリング
2.2 専門家チームの構成(意図的な役割分担)
実験5の核心は、各AIに異なる専門領域を割り当てたことです:
| レビューAI | 依頼した専門領域 | レビュー範囲 |
|---|---|---|
| Amp | ドキュメント & PM | ドキュメント品質、完成度、ステークホルダー視点 |
| Gemini | セキュリティ & アーキテクチャ | OWASP Top 10、脆弱性、設計パターン |
| Qwen | コード品質 & パターン | 可読性、保守性、デザインパターン |
| Droid | エンタープライズ基準 | スケーラビリティ、信頼性、本番品質 |
| Codex | 問題解決 & 最適化 | バグ、エラー、アルゴリズム効率 |
| Claude | 包括的レビュー | 全観点での総合評価(唯一の包括的レビュー) |
| Multi-AI | 統合レビュー | セキュリティ + 品質 + エンタープライズの3種統合 |
2.3 実験設計の重要な意図
この役割分担は偶然ではありません。意図的な実験設計です。
意図1: 専門性の深さを測定
各AIに専門領域を割り当てることで:
- その領域でどれだけ深く分析できるか
- 専門家としての能力を測定できる
意図2: 役割分担の有効性を検証
人間のチーム開発と同じように:
- 1人の完璧なレビュアーより、専門家チームの方が効果的か
- 異なる視点を組み合わせることで、見逃しを減らせるか
意図3: 包括的 vs 専門特化の比較
Claudeだけが包括的レビューを依頼されました。これにより:
- 包括的レビューのメリット・デメリット
- 専門特化レビューのメリット・デメリット
- を比較できる
2.4 実験の実施方法
実行環境:
- 各AIに同じコードを独立してレビューさせる
- タイムアウト設定: 1,800秒(30分)/レビュー
- レビュー結果はJSONフォーマットで自動収集
レビュー指示の独立性:
- 各AIには専門領域のみを指示
- 他のAIのレビュー結果は見せない
- 同時並行実行により相互影響を排除
2.5 実験の限界
この実験にも限界があることを最初にお伝えしておきます:
限界1: 専門領域の割り当て
- 専門領域の割り当ては、これまでの実験(1〜4)の観察に基づく
- 各AIの「真の専門性」とは異なる可能性がある
- より多くの実験で検証が必要
限界2: 比較の公平性
- 専門領域が異なるため、直接比較は難しい
- 「誰が最も優れたレビュアーか」を判定することが目的ではない
- むしろ「役割分担の有効性」を評価する実験
限界3: サンプルサイズ
- レビュー対象はCursorの1実装のみ
- 他の実装でも同様の結果になるかは不明
これらの限界を理解した上で、それでも得られた興味深い知見を共有させていただきます。
3. 実験結果 - 各専門家の発見
3.1 実行結果サマリー
全7つのAIによるレビューは無事に完了しました:
| AI | ステータス | 実行時間 | 発見数 | 評価判定 |
|---|---|---|---|---|
| Amp | SUCCESS | 120秒 | 12件 | - |
| Claude | SUCCESS | 110秒 | 8件 | ✅ correct(DO NOT MERGE) |
| Codex | SUCCESS | 90秒 | 12件 | ✅ correct |
| Droid | SUCCESS | 180秒 | 4件 | ❌ incorrect |
| Gemini | SUCCESS | 60秒 | 3件 | ❌ incorrect |
| Multi-AI | SUCCESS | 320秒 | 3件 | ✅ correct |
| Qwen | SUCCESS | 120秒 | 約10件 | - |
総実行時間: 337秒(約5.6分)
成功率: 7/7(100%)
3.2 各専門家の発見(専門領域別)
実験5の重要なポイントは、各AIが依頼された専門領域で何を発見したかです。
専門家A: Amp(ドキュメント & PM専門)
依頼した専門領域: ドキュメント品質、完成度、ステークホルダー視点
発見した問題(12件):
- README完全欠如 ← Ampにしか依頼していない
- ドキュメント不在 ← Ampの専門領域
- Pomodoroタイマー未実装(完成度の観点)
- 設定ダイアログ非機能
- 統計表示なし
- その他、PM視点での完成度問題
評価:
- Ampは依頼通り、ドキュメントと完成度に注目した
- PM視点での「ステークホルダーが期待する機能」の欠落を指摘
- 発見数12件は、完成度評価の詳細さを示す
専門家B: Gemini(セキュリティ & アーキテクチャ専門)
依頼した専門領域: OWASP Top 10、脆弱性、設計パターン
発見した問題(3件):
- Prototype Pollution脆弱性 ← Geminiのみが発見
- CSP(Content Security Policy)欠如
- Task ID衝突リスク
評価:
- Geminiは依頼通り、セキュリティに深く特化した
- Prototype Pollution脆弱性は他の6AIが見逃した高度な問題
- 発見数は少ないが、質が高い(専門性の深さ)
専門家C: Qwen(コード品質 & パターン専門)
依頼した専門領域: 可読性、保守性、デザインパターン
発見した問題(約10件):
- ファイル長の過剰(798行のapp.js) ← Qwenの専門領域
- Pomodoroタイマー未実装(機能完全性の観点)
- コード構造の問題
- その他、保守性に関する問題
評価:
- Qwenは依頼通り、コード品質と保守性に注目
- アーキテクチャを評価しつつ、実装不足も指摘
- バランスの取れた品質レビュー
専門家D: Droid(エンタープライズ基準専門)
依頼した専門領域: スケーラビリティ、信頼性、本番品質
発見した問題(4件):
- Pomodoroタイマー未実装(本番リリース不可)
- 設定ダイアログ非機能(エンタープライズ品質欠如)
- 統計更新なし
- オーディオアセット404エラー
評価: ❌ incorrect(最も厳格な判定)
- Droidは依頼通り、エンタープライズ基準で評価
- 発見数は4件だが、全てCritical(本番環境で許容不可)
- 最も厳しい"patch is incorrect"判定
専門家E: Codex(問題解決 & 最適化専門)
依頼した専門領域: バグ、エラー、アルゴリズム効率
発見した問題(12件):
- 実験スクリプト自体をレビュー(メタレビュー)
- タイムアウト設定の不整合を発見
- システム全体の視点での問題指摘
評価:
- Codexは対象を広く解釈(意図とは異なる)
- ただし、システム全体の視点は貴重
- 問題解決の専門家として、プロセスレベルの改善提案
専門家F: Claude(包括的レビュー専門)
依頼した専門領域: 全観点での総合評価
発見した問題(8件):
- Pomodoroタイマー未実装
- 設定ダイアログ非機能
- 統計更新なし
- メモリリーク可能性(subscribers未解除) ← Claudeのみが発見
- オーディオアセット404エラー
- README不在
- テスト皆無
- その他、包括的な問題
評価: ✅ correct(DO NOT MERGE推奨)
- Claudeは唯一、全観点でのレビューを実施
- 8カテゴリーでの評価(最も包括的)
- 工数見積もりまで提供
専門家G: Multi-AI(統合レビュー)
依頼した専門領域: セキュリティ + 品質 + エンタープライズの3種統合
発見した問題(3件):
- セキュリティ問題(XSS、CSP)
- 品質問題
- エンタープライズ基準の問題
評価: ✅ correct
- 3つの専門レビューを並列実行
- 統合的な視点でのレビュー
- 今回はセキュリティレビューのみ成功
3.3 専門領域ごとの発見の比較
重要: 以下の比較は「優劣」ではなく「専門性の違い」を示しています。
| 発見内容 | 発見したAI | 理由 |
|---|---|---|
| README不在 | Amp, Claude | Ampに依頼、Claudeは包括的レビュー |
| Prototype Pollution | Gemini | セキュリティ専門家として深掘り |
| CSP欠如 | Gemini, Multi-AI | セキュリティ特化AI |
| ファイル長過剰 | Qwen | コード品質専門家の視点 |
| メモリリーク可能性 | Claude | 包括的レビューで技術的詳細も |
| Pomodoroタイマー未実装 | Amp, Droid, Qwen, Claude | 全ての専門家が指摘(4/7) |
3.4 最も重要な発見:全専門家の合意
驚くべき結果: 専門領域が異なるにも関わらず、4つのAI(57%)が同じ重大問題を指摘しました:
Pomodoroタイマー未実装
- Amp(PM視点): 「コア機能が欠落、完成度40-60%」
- Droid(エンタープライズ視点): 「本番リリース不可」
- Qwen(品質視点): 「機能完全性の欠如」
- Claude(包括的視点): 「推定工数4-6時間で実装可能」
この合意の意味:
異なる専門領域からレビューしても、本当に重大な問題は全員が気づくということです。これは:
- 専門家による役割分担の有効性を示す
- 重要な問題は見逃されにくいことを示す
- 異なる視点の組み合わせが強力であることを示す
4. 詳細分析 - 専門性の深さと役割分担の効果
4.1 専門性の深さの評価
各AIは、依頼された専門領域でどれだけ深く分析できたか?
深い専門性を示したAI
1. Gemini(セキュリティ専門)
- Prototype Pollution脆弱性を唯一発見
- 他の6AIは誰も見つけられなかった高度な問題
- セキュリティ専門家としての深い知識を発揮
評価: ⭐⭐⭐⭐⭐(5/5)
専門領域での深さは抜群。発見数は少ないが、質が非常に高い。
2. Amp(ドキュメント & PM専門)
- README、ドキュメント、セットアップ手順の欠如を詳細に指摘
- PM視点での完成度評価(40-60%)を明確に提示
- ステークホルダー視点での問題を12件発見
評価: ⭐⭐⭐⭐⭐(5/5)
ドキュメント評価を依頼したのはAmpだけ。その領域で圧倒的な詳細さ。
3. Droid(エンタープライズ専門)
- 本番環境で許容できない問題を4件発見(全てCritical)
- 最も厳しい"patch is incorrect"判定
- エンタープライズ基準での妥協のない評価
評価: ⭐⭐⭐⭐⭐(5/5)
発見数は少ないが、厳格さと実用性の観点で最高レベル。
バランスの取れた専門性を示したAI
4. Claude(包括的レビュー)
- 8カテゴリーでの詳細評価
- 工数見積もり(4-6時間)まで提供
- メモリリーク可能性など、技術的詳細も指摘
評価: ⭐⭐⭐⭐(4/5)
包括的だが、各領域の深さは専門特化AIに劣る部分もある。
5. Qwen(コード品質専門)
- コード品質と保守性に注目(約10件発見)
- ファイル長過剰など、品質専門家ならではの指摘
- アーキテクチャと実装のバランス評価
評価: ⭐⭐⭐⭐(4/5)
品質評価として適切だが、特筆すべき深い発見は少ない。
特殊な専門性を示したAI
6. Codex(問題解決専門)
- 実験スクリプト自体をレビュー(メタレビュー)
- タイムアウト設定の不整合を発見
- システム全体の視点
評価: ⭐⭐⭐(3/5)
意図とは異なる対象をレビューしたが、その視点は貴重。
7. Multi-AI(統合レビュー)
- 3つの専門レビューを並列実行
- 今回はセキュリティレビューのみ成功
- 統合の難しさも露呈
評価: ⭐⭐⭐(3/5)
統合レビューの可能性を示したが、今回は部分的な成功。
4.2 専門特化 vs 包括的レビューの比較
実験5の重要な比較は、Claudeの包括的レビュー vs 他のAIの専門特化レビューです。
包括的レビュー(Claude)の特徴
メリット:
- 全観点を1人でカバー(効率的)
- 観点間のバランスを考慮できる
- 1つのレポートで全体像が把握できる
デメリット:
- 各領域の深さは専門家に劣る
- Prototype Pollutionのような高度な問題を見逃す可能性
- 1人の知識の限界
Claudeの発見:
- 8件(広く浅い)
- メモリリーク可能性など、技術的詳細も一部あり
- 工数見積もりなど、実用的な情報も提供
専門特化レビュー(Gemini, Amp, Droid等)の特徴
メリット:
- 各領域で非常に深い分析
- 他のAIが見逃す高度な問題を発見
- 専門知識を最大限に活用
デメリット:
- 複数のレビュアーが必要(コスト増)
- 統合の手間がかかる
- 観点間のバランスを取るのが難しい
専門家たちの発見:
- Gemini: 3件(狭く深い)- Prototype Pollution発見
- Amp: 12件(ドキュメント特化)- README不在を詳細指摘
- Droid: 4件(厳格な品質基準)- 本番リリース不可判定
4.3 役割分担の有効性
実験5の最も重要な発見は、役割分担レビューの有効性です。
発見1: 重大問題は見逃されない
異なる専門領域からレビューしても、Pomodoroタイマー未実装というコア機能の欠落は、4つのAI(57%)が指摘しました。
示唆: 本当に重大な問題は、どの専門家も気づく。役割分担しても、重要な問題は見逃されにくい。
発見2: 専門家は独自の価値を提供
各専門家が、他のAIが見逃した問題を発見:
- Gemini → Prototype Pollution(他の6AIが見逃し)
- Amp → README不在の詳細分析(他のAIはさらっと指摘)
- Claude → メモリリーク可能性(他のAIは言及なし)
示唆: 専門家による役割分担は、それぞれが独自の価値を提供する。包括的レビュー1つより、専門家チームの方が見逃しが少ない可能性。
発見3: 評価の厳格さは専門領域に依存
評価の厳格さは、単なる「AIの性格」ではなく、依頼された専門領域に依存する可能性:
- Droid(エンタープライズ基準): "patch is incorrect"(最も厳格)
- Gemini(セキュリティ基準): "patch is incorrect"(セキュリティ観点で不合格)
- Claude(包括的基準): "DO NOT MERGE"(バランス型の判断)
示唆: AIの「厳格さ」は固定的な性質ではなく、評価基準(専門領域)によって変わる。
5. Cursor実装の総合評価 - 専門家たちの合意
5.1 全専門家が一致して評価した強み
7つのAIが独立してレビューした結果、Cursorの強みについて驚くべき合意が形成されました:
1. 優れたアーキテクチャ設計 ⭐⭐⭐⭐⭐(5/5)
評価したAI: Claude(包括的), Qwen(品質), Droid(エンタープライズ)
共通評価:
- 明確な責任分離(Models, Storage, State, View)
- Pub/Subパターンの適切な実装
- 拡張性の高い設計
注目点: 異なる専門領域(包括的、品質、エンタープライズ)から評価しても、アーキテクチャの優秀さは全員が認めた。
2. セキュリティのベストプラクティス ⭐⭐⭐⭐⭐(5/5)
評価したAI: Gemini(セキュリティ), Multi-AI(統合), Claude(包括的)
共通評価:
-
textContent使用によるXSS防止 - 入力検証の徹底
- セキュアなDOM操作
注目点: Geminiのようなセキュリティ専門家も、基本的なセキュリティ対策は高く評価。ただし、高度な問題(Prototype Pollution)は指摘。
3. アクセシビリティ対応 ⭐⭐⭐⭐⭐(5/5)
評価したAI: Claude(包括的)
- ARIA属性の包括的実装
- キーボードナビゲーション完備
- スクリーンリーダー対応
注目点: Claudeの包括的レビューだからこそ発見できた強み。専門特化AIはアクセシビリティに言及せず。
4. コードスタイルの一貫性 ⭐⭐⭐⭐⭐(5/5)
評価したAI: Qwen(品質), Claude(包括的)
共通評価:
- 可読性と保守性が高い
- 一貫した命名規則
- 適切なコメント
5.2 全専門家が一致して指摘した弱み
一方で、致命的な問題についても合意が形成されました:
1. 完成度の致命的不足 ❌(40-60%のみ完成)
指摘したAI: Amp(PM), Droid(エンタープライズ), Qwen(品質), Claude(包括的)
各専門家の視点:
- Amp(PM視点): 「コア機能が欠落、ステークホルダーの期待に応えられない」
- Droid(エンタープライズ視点): 「本番リリース不可、Critical問題」
- Qwen(品質視点): 「機能完全性の欠如、アーキテクチャは良いが実装不足」
- Claude(包括的視点): 「推定工数4-6時間で実装可能」
具体的な問題:
- Pomodoroタイマー: 0%実装(4AI指摘)
- 設定ダイアログ: UI存在するも配線なし(2AI指摘)
- 統計表示: 永久に"0"表示(2AI指摘)
- オーディオアセット: 404エラー(3AI指摘)
2. ドキュメント完全欠如 ❌(0/5)
指摘したAI: Amp(ドキュメント専門), Claude(包括的)
Ampの詳細指摘(ドキュメント専門家として):
- README不在
- セットアップ手順なし
- API仕様書なし
- コメント/説明不足
Claudeの補足:
- 推定工数1時間でREADME作成可能
注目点: ドキュメントレビューを依頼したのはAmpだけ。だからこそ、詳細な分析ができた。
3. テスト皆無 ❌(1/5)
指摘したAI: Claude(包括的)
- テストインターフェース存在するもテストファイル0
- テストカバレッジ0%
注目点: テストレビューを明示的に依頼したAIはなし。Claudeが包括的レビューの一環として指摘。
4. 潜在的セキュリティリスク ⚠️
指摘したAI: Gemini(セキュリティ専門), Multi-AI(統合), Claude(包括的)
各専門家の視点:
- Gemini(セキュリティ専門): 「Prototype Pollution脆弱性(高度)」← 唯一の発見
- Gemini + Multi-AI: 「CSP欠如(防御層の追加が必要)」
- Gemini + Claude: 「Task ID衝突リスク」
注目点: Geminiの専門性の深さが際立つ。他のAIは高度なセキュリティ問題を見逃した。
5.3 専門家たちの統合判定
7つのAIの独立したレビュー結果を統合すると、以下の結論に至りました:
結論: Cursor実装は優れた設計だが、コア機能が0%実装
完成度: 40-60%
推奨: DO NOT MERGE / patch is incorrect
推奨改善事項(優先度順):
| 優先度 | 項目 | 推定工数 | 指摘した専門家 |
|---|---|---|---|
| P0 (Critical) | Pomodoroタイマーの完全実装 | 4-6時間 | Amp, Droid, Qwen, Claude |
| P0 (Critical) | 設定ダイアログの配線 | 1-2時間 | Droid, Claude |
| P0 (Critical) | 統計表示の実装 | 1時間 | Droid, Claude |
| P0 (Critical) | README作成 | 1時間 | Amp, Claude |
| P1 (High) | Prototype Pollution対策 | - | Gemini |
| P1 (High) | テスト実装 | 3-4時間 | Claude |
| P2 (Medium) | CSP追加 | - | Gemini, Multi-AI |
総合推定工数: 13-19時間で100%完成
6. 最も重要な発見 - 役割分担レビューの有効性
6.1 実験5の核心的な問い
実験5の最も重要な目的は、専門家による役割分担レビューの有効性を検証することでした:
問い1: 専門領域に特化したレビューは、深い分析ができるか?
問い2: 異なる専門家の組み合わせは、包括的レビュー1つより優れているか?
問い3: 人間のチーム開発の考え方は、AIレビューにも適用できるか?
6.2 検証結果:専門性の深さ
結論: ✅ 専門領域に特化したレビューは、非常に深い分析ができる
証拠:
-
Geminiの発見(セキュリティ専門)
- Prototype Pollution脆弱性を唯一発見
- 他の6AI(包括的レビューのClaudeを含む)は見逃した
- 専門家としての深い知識を発揮
-
Ampの発見(ドキュメント専門)
- README、セットアップ、API仕様書の欠如を詳細に指摘
- 12件の詳細な問題リスト
- 他のAIは「ドキュメント不足」とさらっと指摘するのみ
-
Droidの発見(エンタープライズ専門)
- 本番環境で許容できない4件の問題(全てCritical)
- 最も厳しい"patch is incorrect"判定
- エンタープライズ基準での妥協のない評価
示唆: 専門領域を絞ることで、その領域での分析の深さが増す。
6.3 検証結果:役割分担の有効性
結論: ✅ 専門家チームは、包括的レビュー1つより見逃しが少ない
証拠:
包括的レビュー(Claude)が見逃した問題:
- Prototype Pollution脆弱性(Geminiが発見)
- ドキュメントの詳細な問題(Ampが12件指摘、Claudeは簡潔に1件)
専門特化レビューが見逃した問題:
- メモリリーク可能性(Claudeのみが指摘)
- アクセシビリティ対応(Claudeのみが評価)
- テスト皆無(Claudeのみが指摘)
統合的な理解:
包括的レビュー1つ:
├─ メリット: 全観点をカバー、バランスが良い
└─ デメリット: 各領域の深さに限界
専門家チーム:
├─ メリット: 各領域で非常に深い分析、見逃しが少ない
└─ デメリット: 統合の手間、コスト増
最適解: 両方を組み合わせる
├─ 専門特化レビュー(Gemini, Amp, Droid等)で深掘り
└─ 包括的レビュー(Claude)で全体統合
6.4 検証結果:人間チーム開発との類似性
結論: ✅ 人間のチーム開発の考え方は、AIレビューにも適用できる
人間のチーム開発:
セキュリティエンジニア → セキュリティレビュー
品質エンジニア → コード品質レビュー
PMレビュアー → ドキュメント・完成度レビュー
アーキテクト → アーキテクチャレビュー
実験5のAIチーム:
Gemini → セキュリティレビュー(Prototype Pollution発見)
Qwen → コード品質レビュー(保守性評価)
Amp → ドキュメント・完成度レビュー(12件の詳細指摘)
Droid → エンタープライズ基準レビュー(厳格な評価)
示唆: AIレビューも、人間チーム開発と同じ原則が適用できる。「1人の完璧なレビュアー」を探すのではなく、「専門家チームを編成する」のが正解。
7. 実務への応用 - どう役割分担すべきか
7.1 推奨レビュー戦略(実験5検証済み)
実験5の結果に基づいた、実務で使える役割分担戦略を提案します:
戦略1: 高速チェック(5-10分)
推奨構成: Qwen(品質専門)単体
- コード品質と保守性の迅速評価
- 実行時間: 約120秒
- 用途: プルリクエストの初期レビュー
- メリット: 低コスト、高速
- デメリット: セキュリティや完成度は評価されない
戦略2: 標準開発レビュー(15-20分)
推奨構成: Claude(包括的)+ Amp(PM)
- Claude: 包括的フィードバック(8カテゴリー評価)
- Amp: PM視点での完成度評価
- 合計実行時間: 約230秒
- 用途: 通常の開発サイクルでの品質確保
- メリット: バランスが良い、実用的
- デメリット: 高度なセキュリティ問題は見逃す可能性
戦略3: 本番リリース前(30-40分)
推奨構成: Droid(エンタープライズ)+ Gemini(セキュリティ)
- Droid: エンタープライズ基準での厳格評価
- Gemini: セキュリティ脆弱性の深掘り
- 合計実行時間: 約240秒
- 用途: プロダクション環境へのデプロイ前
- メリット: 高度な問題も発見、厳格
- デメリット: コスト高、時間がかかる
戦略4: 最大品質保証(60分+)
推奨構成: 全7AI並列実行
- 多角的な完全レビュー
- 総実行時間: 約337秒(5.6分)
- 用途: クリティカルなシステム、大規模リリース
- メリット: 見逃しが最小限、全観点カバー
- デメリット: 最もコスト高、統合の手間
7.2 AIの役割分担最適化(実験5実証済み)
実験5の結果から、各AIの最適な役割が明確になりました:
| AI | 推奨役割 | 理由(実験5で実証) |
|---|---|---|
| Gemini | セキュリティ専門レビュアー | Prototype Pollution発見。高度な問題を見逃さない |
| Amp | ドキュメント & PM専門レビュアー | README等の欠如を詳細指摘(12件)。完成度評価に優れる |
| Droid | 最終関門(エンタープライズ基準) | 最も厳格な"patch is incorrect"判定。本番品質の守護者 |
| Qwen | 初期品質レビュアー | コード品質の迅速評価。保守性の観点が優れる |
| Claude | 統合レビュアー(包括的) | 8カテゴリー評価、工数見積もり。全体統合に最適 |
| Codex | 問題解決 & システムレビュアー | メタレビュー実施。プロセス改善の視点 |
| Multi-AI | 並列統合レビュー | 3種のレビューを統合。時間短縮と多角的評価 |
7.3 プロジェクトタイプ別の推奨構成
実験5のデータを基に、プロジェクトタイプ別の推奨構成を提案:
スタートアップMVP(速度重視)
推奨構成: Qwen(品質)+ Claude(包括的)
- 理由: 高速レビュー、バランスが良い
- 省略: セキュリティ詳細レビュー(初期MVPでは優先度低)
- コスト: 約230秒(低コスト)
エンタープライズシステム(品質重視)
推奨構成: Droid(エンタープライズ)+ Gemini(セキュリティ)+ Amp(ドキュメント)+ Claude(統合)
- 理由: 最高品質、見逃しが最小限
- 省略: なし(全観点カバー)
- コスト: 約530秒(高コスト)
セキュリティクリティカル(セキュリティ重視)
推奨構成: Gemini(セキュリティ)+ Droid(エンタープライズ)+ Multi-AI(統合)
- 理由: セキュリティの深掘り、厳格な品質基準
- 省略: ドキュメントレビュー(セキュリティ優先)
- コスト: 約560秒(高コスト)
8. 実験の洞察と今後の課題
8.1 実験5で確認できたこと
確認できた事実:
- 専門性の深さ: 専門領域に特化すると、非常に深い分析ができる
- 役割分担の有効性: 専門家チームは、包括的レビュー1つより見逃しが少ない
- 重大問題の合意: 異なる専門領域でも、重大問題(Pomodoroタイマー未実装)は全員が指摘
- 包括的レビューの価値: Claudeの包括的レビューは、全体統合に必須
- 人間チームとの類似性: AIレビューも、人間チーム開発の原則が適用できる
実証された価値:
- 専門家による役割分担レビューの有効性(実験5で実証)
- 各AIの専門性の深さ(Geminiのセキュリティ、Ampのドキュメント)
- 適材適所の重要性(プロジェクトタイプ別の推奨構成)
8.2 実験の限界と今後の課題
限界1: 専門領域の割り当て
今回の専門領域の割り当ては、実験1〜4の観察に基づく主観的な判断です:
- Geminiが「本当に」セキュリティ専門なのか?
- Ampが「本当に」ドキュメント専門なのか?
- より多くの実験で検証が必要
限界2: サンプルサイズ不足
レビュー対象はCursorの1実装のみ:
- 他の実装(Claude, Gemini, Qwen等)でも同じ結果になるか?
- より多様なコードベースでの検証が必要
- 異なるドメイン(Web API、CLI等)での実験が必要
限界3: 最適な役割組み合わせの未検証
今回は「各AIに1つの専門領域」を割り当てましたが:
- 最適な組み合わせは何か?(例: Droid + Gemini + Claude)
- 組み合わせによる相乗効果はあるか?
- プロジェクトタイプごとの最適解は?
これらは実験7(役割分担最適化実験)で検証すべき課題です。
8.3 次のステップ
実験5を踏まえた、今後の実験計画:
Phase 3A: 他の実装に対する同様の実験
- Claude/Gemini/Qwen等の実装を専門家チームでレビュー
- サンプルサイズを増やして結論の信頼性を向上
Phase 3B: 実験7(役割分担最適化実験)
- 異なる役割組み合わせで同じタスクを実施
- パターンA: Droid設計 → Qwen実装 → Geminiレビュー
- パターンB: Claude設計 → Cursor実装 → Droidレビュー
- 最適な組み合わせを特定
Phase 3C: 専門領域の再定義
- より多くの専門タスク(実験6)で各AIの真の専門性を特定
- 主観的な割り当てではなく、データに基づく専門領域の定義
9. 正直な感想と反省
9.1 実験設計について
実験5の設計で、最も重要だったのは専門領域を明確に割り当てたことです。
うまくいった点:
- 各AIに異なる専門領域を依頼
- Claudeだけに包括的レビューを依頼(比較対象)
- 独立した並列実行で相互影響を排除
まだ改善の余地がある点:
- 専門領域の割り当てが主観的
- 最適な組み合わせの検証が未完了
- より多くのサンプルでの検証が必要
9.2 発見の解釈について
実験5で最も驚いたのは、Geminiの専門性の深さでした:
「Prototype Pollution脆弱性を唯一発見」
これは、専門領域に特化することで、AIの能力が最大限に発揮されることを示しています。
一方で、重要な学びもありました:
「Ampがドキュメント不足を指摘したのは、Ampに依頼したから」
これは当たり前のことですが、最初の分析では見落としていました。ユーザーの指摘により、実験設計の本質を正しく理解できました。
9.3 人間チーム開発との類似性
実験5を通じて、最も重要な気づきは:
「AIレビューも、人間チーム開発と同じ原則が適用できる」
人間の世界では、誰も「1人の完璧なレビュアー」を探しません。それぞれの専門家が、それぞれの視点でレビューします。
AIの世界も同じであるべきです。「最強のレビューAI」を探すのではなく、「専門家チームを編成する」のが正解なのだと思います。
9.4 謙虚な姿勢を忘れずに
実験5でも、完璧な結論は得られていません:
- 専門領域の割り当ては主観的
- サンプルサイズが小さい
- 最適な組み合わせは未検証
しかし、不完全ながらも正直に共有することで、誰かの役に立てればと考えています。
特に、ユーザーの鋭い指摘により、実験設計の本質を見直すことができました。このようなフィードバックが、実験の質を向上させると信じています。
10. まとめ - 実験5から学んだこと
主要な発見
実験設計の本質:
- 各AIに意図的に専門領域を割り当てた
- 「自然な評価基準の違い」ではなく「役割分担の検証」が目的
専門性の深さ:
- Gemini: Prototype Pollution発見(セキュリティ専門家として)
- Amp: ドキュメント問題を12件詳細指摘(ドキュメント専門家として)
- Droid: 最も厳格な"patch is incorrect"判定(エンタープライズ専門家として)
役割分担の有効性:
- 専門家チームは、包括的レビュー1つより見逃しが少ない
- 重大問題(Pomodoroタイマー)は、どの専門家も指摘(57%が一致)
- 人間チーム開発の原則が、AIレビューにも適用できる
実務への応用
検証済みの推奨戦略:
- 高速チェック: Qwen単体(5-10分)
- 標準レビュー: Claude + Amp(15-20分)
- 本番前チェック: Droid + Gemini(30-40分)
- 最大品質保証: 全7AI並列(60分+)
役割分担の最適化(実験5実証済み):
- Gemini: セキュリティ専門レビュアー(高度な問題を発見)
- Amp: ドキュメント & PM専門レビュアー(完成度評価に優れる)
- Droid: 最終関門(エンタープライズ基準、最も厳格)
- Claude: 統合レビュアー(包括的、全体統合に最適)
今後の展望
- サンプルサイズの拡大: より多くの実装での専門家レビュー
- 役割分担の最適化: 実験7での組み合わせ検証
- 専門領域の再定義: 実験6での真の専門性の特定
- 統合ダッシュボード: 全実験結果の可視化
正直な感想
実験5では、これまでの実験で見えなかった「専門家による役割分担の有効性」が実証されました。
特に重要だったのは、ユーザーの指摘により、実験設計の本質を見直せたことです:
「各AIに専門領域を割り当てたのは、意図的な実験設計」
この理解により、正しい解釈ができました。
不完全ながらも、正直に共有することで、コミュニティ全体の知見を深められればと思います。
リポジトリ
Discussion