👻

Kiroはなぜ地味に見えるのか―Claude Code・Cursor時代における設計思想の差を整理する

に公開

生成AIによる開発支援が当たり前になりつつある現在、AIコーディングツールは「コード補完」から「自律的なエージェント開発」へと急速にシフトし、それが当たり前のようになってきています。

Claude CodeのAgent Teams、Cursorの並列Subagents、GitHub CopilotのCoding Agent、Windsurfの並列Cascade。2026年初頭の時点で、主要ツールはすべて「エージェントが自律的にコードを書き、テストし、修正する」方向に進化しました。

その中でKiroを触ると、正直に言って地味に見えるでしょう。

ただし、その"地味さ"がどのレイヤーの話なのかを分解しないまま議論すると、Kiroは単に「弱いIDE」のように見えてしまいます。

本記事の対象読者は、Claude CodeやCursorを日常的に使っている開発者です。すでにエージェントの恩恵を受けている人に向けて、Kiroが解こうとしている問題の違いを整理してみます。

前提:2026年のAIコーディングツールは何が強いのか

まず出発点の認識を合わせておきます。

「総合的な地力ではClaudeが上だ」という評価は、感情論ではなく実務上の観測に基づいているでしょう。ただし、2026年初頭の時点では「Claudeだけが強い」という状況ではなくなっているとも言えます。主要ツールがそれぞれ異なる方向で急速に進化しているのが現状です。

Claude Code:推論力 x 自律ループ x マルチエージェント

Claude Codeの強さは三層あると言えます。

第一に、大規模コンテキスト処理能力。最大100万トークン(ベータ)のコンテキストウィンドウにより、設計書、実装コード、テスト、ログ、差分履歴を一つの推論空間に載せられます。これは「局所最適」から「準グローバル推論」に近づけるという意味で、依存関係の横断や副作用の検出が現実的な時間で可能になります。

第二に、自律的な実行ループ。実装 → テスト → エラー読解 → 原因推測 → 修正 というループを部分的に自動化できることは、人間の認知帯域を拡張するという意味で生産性の構造そのものを変えます。

第三に、2026年2月にOpus 4.6と同時にリリースされたAgent Teams。リードエージェントがタスクを分割し、複数のワーカーが独立コンテキストで並列実行します。数時間かかる逐次作業が、分単位の並列実行に変わります。大規模リファクタリングや複数モジュールにまたがる機能実装に特に効くでしょう。

さらに、CLAUDE.mdAGENTS.md による指示の構造化、MCPによるツール連携、自動メモリシステムによるセッション間のコンテキスト継続も加わり、単なる推論エンジンからエージェント開発基盤へと進化しています。

Cursor:並列Subagentsと独自モデル

Cursorは2.0で大きく変わりました。独自コーディングモデルComposerの搭載により、従来比4倍の生成速度を実現。さらに注目すべきは非同期Subagentsです。親エージェントをブロックせず複数のサブエージェントが並列実行し、サブエージェント自身がさらにサブエージェントを生成するツリー構造を形成します。8,000行のNext.jsアプリのルーター移行が、逐次実行の17分から並列9分に短縮されたというレビュー記事でのテスト結果も報告されています。

https://myaiverdict.com/cursor-ai-review/

Background Agentsにより、開発者が別の作業をしている間にエージェントが独立ブランチで作業し、PullRequestを開くことも可能になりました。Plan Mode、Rules、Hooksといった工程制御の仕組みも備えています。

GitHub Copilot:Issue起点の自律エージェント

GitHub CopilotのCoding Agentは、Issueを @copilot にアサインするだけでバックグラウンドで自律的にDraft PullRequestを作成します。GitHub Actions環境で動作し、ブランチ作成からコミット、PullRequestオープンまでを自動化します。AGENTS.md でプロジェクト固有の指示を共有でき、MCPでツール連携もできます。PullRequestレビューでのフィードバックに基づいて自動修正を繰り返す設計です。

Windsurf:並列CascadeとSWE-1.5

WindsurfはWave 13で並列マルチエージェントセッションをリリースしました。Git worktreesにより、同一リポジトリ内で複数のCascadeエージェントがブランチ競合なく同時稼働します。SWE-1.5はSWE-Bench-Proでフロンティアモデルに匹敵する性能を示しつつ、2025年12月のリリースから3ヶ月間全ユーザーに無料提供されました。Cascade Hooksによるワークフロー自動化も追加されました。

共通するトレンド

ここで見えるのは、主要ツールがすべて「推論の自律性と並列性」を競っているということです。より速く、より多くのファイルを、より少ない人間の介入で処理する。これが2026年初頭のAIコーディングツールの支配的な競争軸でしょう。

この軸で評価する限り、Kiroは現時点で後発の位置にいると言えます。

だからこそ、Kiroが何を最適化しているのかを正確に理解する必要があるでしょう。

Kiroが最適化している対象は何か

主要ツールが最適化しているのは「推論の自律性と並列性」です。それに対し、Kiroが最適化しているのは「工程の状態管理」です。

抽象的に聞こえるので、Kiroの具体的な仕組みを見ながら考えていきます。

Spec:仕様を構造として固定する仕組み

Kiroの中核機能はSpec(仕様駆動開発)です。自然言語のプロンプトから、以下の三つのMarkdownファイルを段階的に生成します。

  • requirements.md :ユーザーストーリーと受け入れ基準をEARS(Easy Approach to Requirements Syntax)記法で記述する。EARSは元々Rolls-Royceがジェットエンジンの耐空性規定分析のために開発した手法で、WHEN [条件] THE SYSTEM SHALL [振る舞い] という構造化された形式で曖昧さを排除する。
  • design.md :技術アーキテクチャ、シーケンス図、実装上の考慮事項を文書化する。
  • tasks.md :実装計画を離散的なタスクに分解し、各タスクが requirements.md のどの要件にトレースバックされるかを明示する。

重要なのは、この三つのファイルが独立したドキュメントではなく、連鎖する構造を持っていることです。requirements.md を変更すると、design.md のRefineを通じて設計が更新され、tasks.md のUpdate tasksで新しいタスクが要件にマッピングされます。仕様変更の影響が構造的に伝播する設計になっています。

Steering:暗黙知を永続的なコンテキストにする仕組み

多くのプロジェクトでは、次のような情報が暗黙知として存在します。

この制約は監査要件由来、このキャッシュ設計は将来拡張前提、この非同期処理は順序保証が必要、このAPIは外部契約に依存・・・。
これらはコードやレビューや口頭説明に散在し、構造としては保持されないものが多いです。

KiroのSteeringは、これらを .kiro/steering/ 配下のMarkdownファイルとして固定します。デフォルトでは product.md(プロダクトの目的とビジネスコンテキスト)、tech.md(技術スタックと制約)、structure.md(プロジェクト構造と命名規約)の三つのファイルが生成されます。

Steeringファイルには三つのインクルードモードがあります。

  • always :全インタラクションに含める
  • fileMatch :特定ファイルパターンにマッチする場合のみ
  • manual :明示的に参照した場合のみ

これにより、コンテキストウィンドウの消費を制御しつつ、必要な前提を確実にAIに渡すことができます。

チーム全体への展開も想定されており、グローバルSteering(~/.kiro/steering/)とワークスペースSteeringの優先順位制御や、Jamf等のMDM経由でのチーム配布が可能です。

https://aws.amazon.com/jp/blogs/news/stop-repeating-yourself/

Hooks:工程の自動化を仕組み化する

Agent Hooksは、ファイルの作成・保存・削除といったイベントに応じて、事前定義されたエージェントアクションを自動実行するトリガーです。ファイル保存時にテストを自動生成する、コード変更時にドキュメントを同期する、セキュリティチェックを自動実行する、といった定型作業をイベント駆動で仕組み化できます。

これらが意味すること

Spec、Steering、Hooksを合わせて見ると、Kiroが意図しているのは単なる仕様書生成ではないことがわかります。要件の明示化(Specの requirements.md)、設計制約の固定(design.md + Steering)、タスク分解と要件へのトレーサビリティ(tasks.md)、変更時の影響伝播(SpecのRefine/Update tasksフロー)、暗黙知の永続化(Steering)、定型工程の自動化(Hooks)。

つまりKiroのアプローチは、「推論を速く・強くするのではなく、推論が依存する前提を明示化し、工程を状態として管理する」という方向を向いていると言えます。

推論エンジンと状態管理は別のレイヤーにある

ここが本質的な差になるでしょう。

LLMは確率的推論モデルです。与えられた文脈から、最も妥当な出力を生成します。Agent Teamsで並列化しようが、Subagentsでツリー構造を組もうが、各エージェントが行っているのは「与えられたコンテキスト内での推論」です。

ここで言う「状態管理」とは、不変条件を明示的に保持し、依存関係を構造として管理し、変更時に影響範囲を再計算できる仕組みを指します。

LLMは文脈を参照できるが、それは「与えられた範囲内」での推論にすぎないです。文脈外にある前提は、存在しないのと同じ扱いになります。

たとえば、レート制限仕様を変更するケースを考えてみましょう。
Claude Codeに変更内容を与えれば、Agent Teamsが並列でコード修正、テスト更新、ドキュメント修正を同時に進めることもできます。しかし、将来のマルチテナント計画や監査要件との整合性が文脈に含まれていなければ、それらは推論対象にならないでしょう。並列化しても、この問題は解決しません。

このとき問題になるのはモデルの賢さや速さではなく、「前提をどこに保持しているか」です。

Kiroは requirements.md に制約をEARS形式で固定し、design.md で設計判断を文書化し、Steeringでプロジェクト固有の前提を永続化します。仕様変更時には、requirements.md の変更から design.mdtasks.md へと構造的に影響が伝播します。

2026年の主要ツールは「推論をいかに速く・自律的に・並列に回すか」を競っていますが、Kiroは「推論に必要な文脈をいかに構造的に維持するか」を競っており、競っているレイヤーが違うと言えます。

「既存ツール + SDD」で十分ではないのか

最も強い反論はこれでしょう。そしてこの反論は、2025年後半から2026年にかけてさらに説得力を増していると言えます。

SDDはKiro固有ではなくなっている

仕様駆動開発(Spec-Driven Development)は、もはやKiroだけのアプローチではないです。

GitHubはSpec Kitをオープンソースで公開しました。requirements → design → tasks というKiroと同様のフローを、Claude Code、Cursor、GitHub Copilot、Gemini CLI、Windsurfなど複数のエージェントで使えるようにするCLIツールです。EARS記法による要件定義も同様にサポートしています。

さらに、各ツールも独自に工程制御の仕組みを備え始めています。Claude Codeには CLAUDE.mdAGENTS.md による指示構造化があります。CursorにはRulesとPlan Modeがあります。GitHub Copilotには AGENTS.md とカスタムエージェント定義があります。Windsurf にはRulesとWorkflowsがあります。

つまり「SDDをやりたければ、好きなツールでGitHubのSpec Kitを使えばいい」「工程制御はどのツールでもある程度できる」という反論は、今やかなり現実的です。

それでもKiroが提供しているもの

ではKiroの差別化は何か。

GitHubのSpec Kitは「SDDのワークフロー」をエージェント非依存で提供するが、仕様と実装の連動は人間の責任として残ります。Spec Kitが生成した requirements.md を変更しても、design.mdtasks.md への影響伝播は自動化されていません。

各ツールのRulesや AGENTS.md は、エージェントへの指示を構造化するが、仕様と設計とタスクの三層構造を一つのIDE内で連鎖的に管理する仕組みではないです。

Kiroの差別化は、「Spec・Steering・HooksがIDE内で一気通貫に統合されている」点にあります。requirements.md の変更 → design.md のRefine → tasks.md のUpdate → タスク実行 → Hooksによる自動検証、というフローが一つの環境内で完結します。仕様ファイルはGit管理可能で、チームでレビュー・共有できます。

これは「SDDのコンセプト」と「SDDのオペレーション」の違いでしょう。コンセプトはSpec Kitでも実現できますが、それを日常のオペレーションとして維持するコストは、ツール統合の度合いに大きく依存するでしょう。

熟練エンジニア + Claude Codeという最強構成への反論

さらに踏み込んで、「熟練エンジニアが自分で仕様を書き、Claude CodeのAgent Teamsに実装させれば最強では」という反論にも向き合います。

確かにそれは強い構成ですが、問題は、状態管理の責任がどこにあるかです。

この構成では、「どの不変条件が存在するのか」「どの設計制約が重要なのか」「どの変更が破壊的なのか」といった判断は暗黙知として人間側に残ります。短期プロジェクトでは問題にならないことが多いでしょう。しかし、仕様変更が積み重なる、担当者が入れ替わる、半年後に改修が入る、といった状況では暗黙知の劣化は避けられません。

Kiroは、この劣化に対して具体的な仕組みを用意しています。requirements.md のEARS形式は受け入れ基準を曖昧さなく固定し、tasks.md の各タスクは要件番号にトレースバックされ、Steeringはプロジェクトの前提をGit管理可能な形で永続化します。これらはバージョン管理され、レビュー可能で、担当者が交代しても参照できます。

Kiroの現時点の制約

公平に言えば、現時点のKiroにも明確な制約があります。

Specと実装コードの同期は完全に自動化されているわけではありません。Martin Fowlerのサイトでのレビューでも指摘されている通り、仕様と実装のドリフトは依然として課題です。また、Specの粒度がプロジェクト規模に合わないケースも報告されています。小さなバグ修正に対して4つのユーザーストーリーと16の受け入れ基準が生成される、という「小さな釘に大きなハンマー」問題です。

https://martinfowler.com/articles/exploring-gen-ai/sdd-3-tools.html

Kiroのデフォルト(Autoモード)はSonnet 4系ベースのルーティングですが、Pro以上ではOpus 4.6も選択可能で、カスタムSubagentsによる並列実行やAutonomous Agent(プレビュー)も備えています。モデル性能やエージェント機能の差は急速に縮まっており、Kiroの差別化はこれらの「推論力・並列性」の軸よりも、Spec・Steering・Hooksによる工程状態管理の統合にあるでしょう。

なお、Kiroの料金はFree(50クレジット/月)からPower($200/月)まで4段階で、クレジットベースの従量課金です。

なぜそれでもKiroは地味に見えるのか

2026年のAIコーディングツールの評価軸は明確です。

Agent Teamsで何分で実装できたか。Subagentsで何ファイル並列修正できたか。Coding AgentにIssueをアサインしたら何時間でPullRequestが上がったか。並列Cascadeで何個のバグを同時に潰せたか。

この軸では、速さと自律性が魅力に写ります。「EARS記法で要件が構造化されました」よりも「Agent Teamsが5つのモジュールを同時に修正しました」の方が、体験としてのインパクトは圧倒的に大きいでしょう。

一方、Kiroの価値は事故を減らす方向にあります。仕様逸脱の抑制、依存漏れの防止、設計制約の明示。一般的に「事故が起きないこと」は評価されにくいと言えます。

その結果、Kiroは弱いのではなく、「評価されにくい位置」に立っているとも言えます。

結論:だから何をすべきか

ここまでの整理を実務的な意思決定に落としてみましょう。

まず認めるべきことは、2026年初頭のAIコーディングツール群は推論の自律性と並列性において急速に進化しており、この軸での実装速度はKiroの比較対象ではない、という事実です。

では、Kiro的アプローチが必要になるのはいつでしょうか。判断基準は「そのプロジェクトで最もボトルネックになっているのは何か」です。

エージェントの推論力を最大化すべき場面

次の条件が揃うほど、Claude Code/Cursor/GitHub Copilot主体の方が合理的です。

  • スコープが限定的
  • 仕様が比較的安定している
  • PoCや探索フェーズ
  • チームが小さく暗黙知が共有されている

この場合、ボトルネックは「実装速度」です。工程を固定するより、エージェントの推論と生成を最大化した方が得をします。

工程の状態管理を入れるべき境界線

一方で、次の兆候が見え始めたら話は変わるでしょう。

  • 仕様変更が頻発する
  • 非機能要件が後から強く入る
  • 担当交代や長期保守が前提
  • テストと仕様の不整合が増え始める
  • エージェントの出力を検証する工数が実装工数を上回り始める

このときボトルネックは「整合性維持」に移ります。ここではエージェントの推論能力よりも、状態をどこに固定しているかが効いてきます。

requirements.md で要件をEARS形式で固定し、tasks.md で各実装が要件にトレースバックされ、Steeringでプロジェクトの前提が永続化されている状態は、半年後の自分や後任者にとっての安全網になるでしょう。

KiroをIDEとして採用するか、Kiroの設計思想をGitHubのSpec Kit等で自分のツールチェーンに取り込むかは別の判断です。重要なのは、「工程の状態管理というレイヤーの存在を認識すること」です。

最終的な整理

Claude Codeは強い。Cursorは速い。GitHub CopilotはGitHubとの統合が深い。Windsurfは並列性に優れる。
それは疑いようがない特徴です。しかしその強さは「推論と実装の自律性・速度・並列性」にあります。

Kiroは派手ではないですが、その価値は「工程状態の構造的な固定」にあります。

この違いを理解せずに単純比較すると、Kiroは常に負けます。しかし評価軸を変えれば見え方も変わります。

2026年のAIコーディングツールはすべて「推論を速く強く自律的に」の方向に走っています。その競争軸でKiroは勝てないでしょう。
ただし、推論が支配的な局面と整合性維持コストが支配的な局面は別のものであり、後者が支配的になった瞬間に、KiroのSpec・Steering・Hooksによる工程状態の固定が効き始めます。

優劣ではなく、レイヤーの違いであり、「レイヤーの違いを認識した上で、自分のプロジェクトに何が必要かを選ぶ」のが、2026年の現実的な解となるのかもしれません。

GENDA

Discussion