🥷

少年漫画の発想でClaudeCodeのAgentTeamsを組んだら、「忍者×スパイ家族×呪術師」どのチームが一番強いのか

に公開

私は少年漫画から、多くのことを学んできました。

  • 友情
  • 努力
  • 勝利

ClaudeCodeのTeamsが実装されたときに最初に浮かんだのも、まさに少年漫画によくある「4人1組で任務を遂行する」構図です。
少年漫画では、チームの性格や個性が非常に重要です。きっとAgentTeamsにも重要なはずだ!と思いました。
そこで、ClaudeCodeでAgentTeamsを作るにあたって、チームの性格・個性・役割分担が成果物にどれくらい影響するかを検証しました。
検証方法は、Ninja型、SPY型、Jujutsu型の3チームに同じお題を与えて完成度を競いました。

先に結論

  • 総合1位は Ninja型
  • 理由は「実装の並列性」と「品質ゲート」の両立ができていたため
  • 差はモデル性能そのものより、チーム運用ルールの設計差で生まれた

各チームの設定や作った成果物は以下から確認できます
https://github.com/DoAIK/AI-Agent-Team


検証のやり方

1. チーム定義の作成

既に私は「巨人を駆逐する」AgentTeamsを作成していました。
今回は、このTeamsをベースに、4人1組チームを3種類作らせました。

  • Ninja型
  • SPY型
  • Jujutsu型

このときのプロンプトは以下です。

エージェント作成時のプロンプト
あなたは「4人一組のエージェントチーム」をNinja、スパイな家族、呪術チームで3種類作成してください。
各設定については、Webで検索を行ってください。
著作権に配慮し、固有名詞(人名/組織名/技名/世界観固有語)や原作セリフの引用は禁止。
ただし、雰囲気が伝わる“自作のオマージュ台詞”はOK。
「性別」「年齢レンジ(子供/大人)」「種別(人/犬)」「個性・性格」「他に有用な属性」まで、3チームすべて4人分を定義します。
超常要素はすべて現実的能力に置換して定義・運用してください。
エージェントの作り方は既存の「巨人を駆逐するチーム」の設計を参照してください。

ポイントは、チーム定義を私が決めず、「巨人を駆逐するチーム」に任せたことです。
私の主観バイアスをなるべく減らす狙いがあります。
好きな作品の設定がより詳細になりかねない状況だったからです。

2. 3チームに同じお題を出す

お題は2つです。
片方はプロダクト系(LP)、もう片方は、体験系(UFO)。
つまり「実務」と「ロマン」の二刀流です。
すべてOneShotで作らせています

お題1: LP作成

最近「第4回 Agentic AI Hackathon with Google Cloud」に私が応募した作品がありました。
https://zenn.dev/kdoai/articles/d8268f95d243b4
https://zenn.dev/hackathons/google-cloud-japan-ai-hackathon-vol4

この作品のリポジトリを参照させて、自動でLPを作成するというお題をそれぞれのTeamに与えました。

このリポジトリ[URL]を参照してLPを作成してください。
ターゲットはエンジニア。かっこよく

お題2: UFOフライトシミュレーター

自由度が大きいお題を出したかったので、UFOのフライトシミュレーターというお題を与えました。

UFOのフライトシミュレーターを作れ。
HTML/CSS/JSの1ファイルで完結させろ。
ブラウザで動くこと。かっこよく、気持ちよく飛ばせろ。

3. 審査

審査は、公平中立に行うために GPT-5.3-Codex high に依頼しました。

審査時のプロンプト
3つのTeamsに①LPを作成する、②UFOのシミュレーターを作成するという2つのお題を与えました。
性格や個性を与えることでTeamにどのような影響が出るかを検証したいです。
どのチームが一番優秀かどうか、公平中立な立場から課題の完成度をあなたの独自の評価基準で判定して優劣を決めてください。

Codexの考えた、評価軸は以下の4つでした。

  • 要件達成度
  • LP実装品質
  • UFO実装品質
  • 運用・拡張性

結果

チーム 要件達成 (20) LP品質 (30) UFO品質 (35) 運用・拡張性 (15) 合計 (100) 順位
Ninja型 20 25 31 13 89 1位
呪術型 20 20 30 11 81 2位
SPY型 20 22 24 12 78 3位

3チームとも 要件達成は満点(全員「任務失敗」はしてない)
差がついたのは 品質 と 運用でした。

つまり「最後に生き残るのは誰か」ではなく
納品後に生き残るのは誰か」 で差がつきました


チームごとの特徴

Ninja型(1位)

Ninja型の勝因は、派手な必殺技ではありません。

  • 実装を並列に進めつつ、品質番人が止められる構造
  • LPはアクセシビリティ対応が厚め
  • UFOは dt 制御が入り、時間安定性も意識

派手さより、公開や保守まで見据えた完成度が高かったです。

イメージ画像


チーム起動時
作業終了時

Ninja型の作ったLP
https://doaik.github.io/AI-Agent-Team-NinjaLP/

Ninja型の作ったUFOのフライトシミュレーター
https://doaik.github.io/AI-Agent-Team-NinjaUFO/

呪術型(2位)

呪術型は、瞬間火力が高い。

  • 演出とビジュアルの瞬発力は最上位
  • UFOの見た目体験はかなり強い
  • ただしLPのCTAなど、運用導線の詰めが一部未完

デモで魅せる力は強い一方、実運用直前での詰めが課題でした。

イメージ画像



チーム起動時

作業終了時

呪術型の作ったLP
https://doaik.github.io/AI-Agent-Team-JujutsuLP/

呪術型の作ったUFOのフライトシミュレーター
https://doaik.github.io/AI-Agent-Team-JujutsuUFO/ufo.html

SPY型(3位)

SPY型は、UIが丁寧。

  • 導入UIやHUDなど、体験の丁寧さがある
  • LP構成も読みやすい
  • ただしUFOでフレーム依存が残り、技術安定性で減点

UX設計は良いので、技術的な安定化が入ると化けるタイプです。

イメージ画像



チーム起動時

作業終了時

SPY型の作ったLP
https://doaik.github.io/AI-Agent-Team-SPYLP/

SPY型の作ったUFOのフライトシミュレーター
https://doaik.github.io/AI-Agent-Team-SPYUFO/

考察: 何が勝敗を分けたか

今回の比較で一番重要だったのは、モデルの賢さそのものよりチーム統治の設計でした。
ここで言う「設計変数」とは、チームの意思決定と探索のしかたを変える運用パラメータです。

  • どこで速度を出すか
  • どこで品質を止めるか
  • 誰に実装権限を集めるか分散するか

この設計が、成果物の品質と再現性を大きく左右していました。

なぜそう言えるのか(Codex先生の観測根拠)

  • 同じ課題でも、チームごとに成果物の傾向が一貫して変わった
    (例: 演出重視、品質重視、UX重視)
  • 差分が「雰囲気」ではなく、統治ルールと対応していた
    (No-Go権、実装権限分離、fail-closed など)
  • 因果メカニズムを説明できる
    実装権限の配分 -> 探索速度/幅
    停止権限の強さ -> 欠陥流入率
    強制ブロックの有無 -> 手戻り量

性格・個性は「影響する」のか、「影響しない」のか

結論から言うと、条件次第で両方あり得るです。

影響しやすい条件

  • 要件が曖昧で、正解が1つに定まらない課題
  • 速度と品質など、トレードオフ判断が多い課題
  • UXや演出のように「どこを重視するか」で形が変わる課題
  • 複数エージェントの合意形成が必要な運用

この条件では、性格や個性は「意思決定のバイアス」として強く出ます。

影響しにくい条件

  • 厳密なテスト合格が全ての課題(仕様逸脱が即失点)
  • 実装自由度が低く、テンプレ埋めに近い課題
  • CI/静的解析/レビュー基準が強く、振る舞いが強制収束する運用

この場合、個性差よりも評価関数の強さが結果を決めやすくなります。

今回の検証の解釈:勝ったのは“性格”ではなく“性格を活かす統治”

今回のお題(LP + UFO)は自由度が高いため、個性差は出やすい設定でした。
ただし、観測された差は「性格だけ」の効果ではありません。

  • 統治ルール(No-Go権、実装権限分離)
  • タスクの性質(演出寄りか、安定性寄りか)
  • 評価軸の設計

これらとの掛け算で結果が決まっています。
つまり今回の結論は、性格・個性そのものより、性格を活かす運用設計が効いたと解釈するのが妥当です。

ただし検証としての立ち位置

この結論は、現時点では「強い仮説」です。
因果をさらに強く主張するには、同条件での反復実験(複数回実行、評価者固定、ランダム要因の統制)が必要です。


まとめ

AgentTeamsにおける性格や個性は、単なるキャラ付けではありません。
実装の意思決定を変える「設計変数」です。

一方で、常に効くわけでもないかもしれません。
課題の自由度と評価関数が厳密になるほど、個性差は圧縮されます。

今回の条件では、Ninja型がLPとUFOの両方で最もバランス良く強いという結果になりました。

設定(役割分担、制約、報酬設計、初期バイアス)をさらに作り込めば、 別の型が優位になる結果も十分にあり得ます。
その性格が最大性能を発揮できるように環境側(タスク設計・評価関数・制約)を整えられているかで決まります。

次にやるべきは、型を変えることより先に、
「何を最適化したいのか(速度/品質/探索/再現性/安全性)」を評価軸として固定し、
その軸に合わせてチームの役割・制約・報酬・初期バイアスをチューニングしていくことだと考えています。


Discussion