🗻

自動運転の前線企業(Wayve/Waymo)から学ぶ、Agentic Workflow導入アプローチ

に公開

はじめに

WayveとWaymoは、自動運転という「高リスク・高複雑度の実世界運用」に取り組む二大企業ですが、そのアプローチは大きく異なります。

  • Wayve:単一のグローバル運転モデルで多都市に展開し、ゼロショット一般化を目指す 「汎用基盤モデル×スケール」 路線
  • Waymo:ODD(運行設計領域)を明確に区切り、冗長性と検証で確実に運用する 「限定領域×安全保証」 路線

この設計思想の対比は、エンタープライズ領域に Agentic Workflow(複数エージェントが自律的にタスク分割・実行・検証するワークフロー) を導入する際の設計指針や導入方針として活用できそうだなと感じました。

本記事では、両社の技術戦略を整理したうえで、銀行業務を具体例として Agentic Workflowの導入アプローチ を3つの設計パターンに分類し、段階的なロードマップとガバナンス設計を解説します。


Wayve vs Waymo ── 設計思想の対比

Wayve:汎用基盤モデルで一般化しスケールする

Wayveは 「一つのモデルが見たことのない場所でどれだけ動くか」 を主問いに据えています。

  • AI-500 Roadshow で単一モデルの500都市規模でのゼロショット評価を公表
  • "Safety 2.0" として、ラベルなしデータを含む大規模学習と回帰耐性(regression-resistant)を強調
  • モデルを体系的に検査・レビューできる 「introspectable(内省可能)」 性を掲げている

Waymo:ODD特化 × 冗長性 × 検証で確実運用

Waymoは 「準備ができた領域から確実に運用する」 アプローチです。

  • 高精細マップ が「道路の先を知る=記憶」として機能し、新地域はマップ生成・検証を経て解放
  • カメラ・レーダー・LiDARの冗長センサー融合 で入力頑健性を確保
  • 20B miles超のシミュレーション など多層検証で安全性を担保
  • Waymo World Model(2026年) で生成的シミュレーションの方向性も提示

自動運転 → エンタープライズへの設計原理の翻訳

この対比から抽出できる設計原理を、Agentic Workflow の文脈に翻訳します。

自動運転の原理 Agentic Workflow への翻訳
汎用基盤モデル(Wayve) で広域一般化 基盤Agentを横断中核に据え、複数業務へゼロショットに近い適用を狙う。ただし ガードレールと検証の設計が先
ODD限定+マップ+冗長センサー+検証(Waymo) 業務ODD(対象商品×顧客×規制×チャネル)を明示 し、ルール・冗長検証・承認プロセスで監査可能性を最大化
大規模シミュレーション(Waymo) 合成データ・合成攻撃シナリオ を生成できる「業務世界モデル」を整備し、本番投入前にカバレッジを稼ぐ
introspectableモデル+回帰耐性(Wayve) Agenticの変更(プロンプト・ツール・モデル更新)で性能が揺れやすいので、 回帰試験・監査ログ・説明を仕様として組み込む

3つの導入アプローチ

アプローチ A:基盤Agent中心・ゼロショット志向(Wayve型)

設計の核:1つの Foundation Agent が多業務へ一般化し、少数ショットで改善。

項目 内容
利点 横展開が速い。新業務・新商品でも初期価値を出しやすい
欠点 誤作動が広範囲に波及。説明責任・再現性が不足しやすい。回帰劣化リスク
適用領域 顧客対応の要約・分類、申込書類の整理、社内オペ支援(低リスク領域から)
評価指標 介入率、誤案内率、処理時間、コンプライアンス逸脱率

アプローチ B:ODD/ルール特化+冗長検証(Waymo型)

設計の核:業務ODDを厳密に定義し、ルール/KB(Knowledge Base:社内規程・商品約款・法令等を体系化したナレッジベース)を"地図"として参照、冗長チェックで確実運用。

項目 内容
利点 監査可能性が高い。規制・内部統制に乗せやすい。フェイルセーフを設計しやすい
欠点 導入・維持コストが高い。ルール/テスト増によるスケールの遅さ
適用領域 与信の最終承認支援、AMLアラート一次判定、規制報告チェック
評価指標 偽陽性/偽陰性、誤審率、逸脱率、SLA達成率、監査指摘件数

アプローチ C:ハイブリッド(推奨)

設計の核:基盤Agentを"認知・推論"の核にしつつ、ルール/KBで規範を固定し、冗長検証・合成シミュレーションで網羅性を稼ぐ。

項目 内容
利点 スケールと監査を両立しやすい。高リスク業務へ段階的に進められる現実解
欠点 設計が複雑。責任分界が曖昧になると統制が崩れる
適用領域 与信(一次〜最終審査支援)、AML(要約+判定+人手審査)、顧客対応(回答案+根拠提示)
評価指標 介入率、誤審率、逸脱率 + カバレッジ指標(シナリオ網羅)+ 回帰耐性

Agentic Workflow の全体アーキテクチャ

以下は、ハイブリッドアプローチにおけるエージェント群の因果フローです。

ポイントは以下の通りです。

  • Wayve型の価値(基盤Agent中心で業務横断の推論・分解)を「Agents」層で確保
  • Waymo型の価値(ODD・冗長・検証)を「Control」層と「HITL」層で外付け
  • シミュレーション/世界モデル でレアケースの網羅性を担保

BEV相当の「業務状態中間表現」

自動運転のBEV(Bird's Eye View)に相当するものをエンタープライズで作るなら、生テキストや生ログから直接意思決定させるのではなく、監査と再現性を担保できる"業務状態の抽象表現"を挟む のが重要です。

このケース状態表現は:

  1. モデルの表現学習を効かせる共通土台 として機能する
  2. 監査・説明・回帰試験の基点 になる

検証・評価の三層設計

Agentic Workflow では、失敗は「出力が間違う」だけでなく 「外部ツール(照会・登録・送金等)を誤実行する」 など高いリスクがありえます。Agentがツール実行と再試行を強みとする反面、実務では失敗が許されない場合も多いです。

第1層:オンライン(実業務)評価

シャドーモード → 限定ODDで部分自動 → SLA付き本番 へ段階化し、A/B比較で影響を測定。

主要KPI:

  • 介入率(人間差し替え頻度)
  • 誤審率/偽陽性・偽陰性
  • コンプライアンス逸脱率
  • 顧客苦情率
  • 処理時間短縮

第2層:シミュレーション(合成世界モデル)

Waymoの「実世界の再生・改変・新規仮想シナリオ」と同様に、合成顧客・合成攻撃・合成市場ショック でレアケースを増幅し回帰試験。

特にエージェントは攻撃面が拡大するため、以下を前提にしたテスト設計も必要です。

  • OWASP Top 10 for LLM:プロンプトインジェクション等の主要脅威
  • MITRE ATLAS:AI/ML攻撃の戦術・技法の体系

第3層:監査・説明(ログと証拠チェーン)

監査で必要な情報:

  • なぜその判断か(推論根拠)
  • どのデータに基づくか(出典リンク)
  • 誰が承認したか(責任者)
  • どのツールが実行されたか(アクション証跡)

ガバナンス設計のポイント

モデルリスク管理(MRM)の拡張

SR 11-7 が求める「開発・検証・ガバナンス」を、LLM/エージェント/ツール連携/プロンプト/データパイプラインまで含めた "システムとしてのモデル" に適用する。

第三者管理・ICTレジリエンス

規制・ガイドライン ポイント
DORA(2025年1月~適用) ICT中断耐性の要求。エージェントが外部APIに依存する場合は対象
EBA Outsourcing GL 重要業務の委託管理。SLA・出口戦略・監督可能性を設計に織り込む
EU AI Act 高リスクAIルールは2026/2027に段階適用。与信など生活に不可欠なサービスは対象になりうる

フレームワーク活用

フレームワーク 活用法
NIST AI RMF(GOVERN/MAP/MEASURE/MANAGE) Agentic の運用管理を4段階で型化
NIST AI 600-1 GenAI Profile 生成AIリスクをAI RMFに接続
ISO/IEC 42001 AIマネジメントシステム標準
金融庁 AI Discussion Paper 日本の金融機関のAIガバナンス論点を整理

段階的導入ロードマップ

フェーズ 目的と業務ODD 主要KPI 次フェーズへの出口条件
① PoC(非本番) 過去ケースで再現可能に動かす。ツール実行はサンドボックス 既存判定との一致率、ハルシネーション率、監査ログ完全性 用途・前提・限界が文書化され、独立検証で重大欠陥なし
② シャドーモード 実データで提案を出すが決裁は人間。商品/顧客層を限定 介入率、処理時間短縮、誤案内率 逸脱・事故が許容範囲内。監査ログが運用で機能
③ 部分自動化 低〜中リスク領域で一部自動化。高リスクは人手承認 自動処理率、逸脱率、苦情率、SLA達成 ICTレジリエンス要求を満たす運用が整備済み
④ 拡張 顧客層・商品・地域へ段階拡張。合成シナリオで回帰試験を厚く 新ODDでの介入率維持、回帰劣化ゼロ 変更管理が回帰試験で統制。監査対応が定常化
⑤ 本番スケール 高リスク意思決定へ"支援"として深く組み込む 規制指摘ゼロ、重大インシデントゼロ 高リスクAI規制に耐える安全ケースが整備済み

主要リスクと緩和策

リスク 発現例 技術的緩和 組織的緩和
モデル誤動作 誤拒否/誤承認、誤説明 中間表現+ルール層制約、冗長チェッカー、回帰試験 三線防衛、変更管理(MRM)
分布シフト 新手口でAMLが崩壊、金利環境変化 シミュレーション、ドリフト検知、few-shot適応 定期レビュー、閾値見直し、インシデント訓練
悪意ある入力 プロンプト注入→規程無視・情報漏洩 入力分離、権限制御、サンドボックス化、フィルタ ATLAS脅威モデリング、レッドチーム
説明責任リスク 判断根拠の説明不能、監査証跡不足 証拠ストア、説明要約、出典リンク強制 SR 11-7準拠の検証・文書化
プライバシー 外部モデルへのデータ残留、越境移転 最小権限、秘匿化、オンプレ環境 第三者管理(DORA/EBA)、契約条項整備

推奨タイムライン

短期(〜12か月)

Waymo型を強くしたハイブリッド で開始。

理由:

  • SR 11-7型の検証・ガバナンス要求が強い
  • DORAでICTレジリエンスが前提化
  • プロンプト注入等のLLM固有脅威が顕在
  • ゼロショット拡大は事故コストが大きい

中期(1〜3年)

Wayve型の学習スケールを取り込み、基盤Agentを 業務横断の認知・推論層 として育成。

「業務状態中間表現」「証拠チェーン」「回帰耐性」を モデル要件として固定 し、NIST AI RMF に沿って継続評価。

長期(3年〜)

世界モデル(合成顧客・詐欺手口・市場ショック) を中核に据え、Waymoのように「現実ログの再生+改変+新規生成」でカバレッジを稼ぐ運用へ移行。


今後の研究開発テーマ

  1. 生成世界モデルの検証基準 ── 合成データが現実リスク分布をどれだけ代表するか
  2. 説明可能な中間表現(BEV相当)の標準化 ── 監査ログと一体化しSR 11-7の検証・文書化と接続
  3. 監査用自然言語要約 ── 説明の一貫性と出典リンクの義務化
  4. マルチソース冗長入力設計 ── センサー冗長の銀行版。矛盾検出・アクセス権管理
  5. エージェント安全(攻撃耐性) ── OWASP/ATLAS基盤の継続レッドチーム

まとめ

教訓の出所 エンタープライズ Agentic への示唆
Wayve 基盤Agentの汎用化・スケールは魅力的だが、ガードレールなしの横展開は事故が拡散する
Waymo ODD限定+冗長検証+多層シミュレーションは 監査可能性と安全保証に強い が、拡張速度が課題
統合 現実解は ハイブリッド。基盤Agentの推論力+ルール層の規範+冗長検証の信頼性+世界モデルの網羅性

高リスク・高規制の業務でAgentic Workflowを導入する際は、「まずWaymo型で確実に動かし、Wayve型の学習スケールを段階的に取り込む」 アプローチが最も堅実です。


あとがき

今回の自動運転とAgenticWorkflowを掛け合わせる考えに至ったのは、後述する「Wayve固有の特徴と差別化要因」で記載されている観点がAgentic Workflowを導入する際に直面する課題や業務範囲をスケールさせるために必要なアプローチのヒントになると思ったためです。
話の構成、Researchは生成AIにまとめてもらいましたが、大枠は間違ってないような気がしています。

Wayve固有の特徴と差別化要因

エンドツーエンド学習を“AV2.0”として再定義。

Wayveは「自動運転の本質的課題は“スケーラビリティ”であり、従来のsense-plan-act分割は、手作業工学と安全クリティカル工数の爆発を招く」という立場から、AV2.0(学習されたホリスティックな“ドライバー”)を提唱している。これは単なるML導入ではなく、設計思想として“分割された知覚→計画”を神経モデルに統合する方向性である。

この思想は、同社が2019年時点で「ユーザー指定ルートに従い、未知ルートで交通と相互作用するe2e学習運転」を示しつつ、「HDマップなどのインフラや高価なセンサーペイロードに依存しない」ことを差別化点として強調した点に連続している。

ビジョン中心と自己教師あり学習による“ロングテール”対策

Wayveは、稀だが安全上重要なケースを“ルール列挙”で潰すのではなく、自己教師あり学習を中心に「大量かつ多様な走行データから、潜在表現を獲得して未見状況へ一般化する」路線を前面に出す。公式ブログでは、e2e Embodied AIが自己教師ありで学習し、ロングテールへの適合を目指すと述べている。

加えてWayveは、未知物体やオープンワールド性(学習クラス外の物体)を自動運転の本質的困難として扱い、セマンティック理解に関する研究成果を公開している(例:未知物体を含むセグメンテーション課題の定式化とベンチマーク)。これは「e2e=中間表現を捨てる」ではなく、“必要な表現(unknownも含む)を学習で獲得する”方向性の裏付けとして位置づけられる。

生成世界モデルと“学習・検証の加速”戦略

WayveのGAIA-1は、動画・テキスト・行動を入力に走行シーンを生成する“生成世界モデル”として提案され、世界モデルを「教師なしの系列モデリング問題」として扱うことが明記されている。これにより、希少シナリオの合成、データ効率の改善、検証の加速といった用途が狙われる。

またWayveは、世界モデルと運転方策を同時に学習するMILEを提示し、オフラインの都市走行データのみで世界モデルとポリシーを学び、未知の街・天候条件でもCARLA上で駆動スコアを改善したと報告している。ここでは「高解像度動画からのコンパクト潜在空間」「解釈可能にBEVセグメンテーションへデコード可能」といった、“e2eでも検証に資する可視化”を意識した設計が読み取れる。

自然言語の導入による説明性・学習効率の補強

WayveはLINGO-1を「視覚・言語・行動を組み合わせ、基盤運転モデルの解釈・説明・訓練を強化するオープンループの“運転コメンテータ”」として紹介している。e2eの弱点として指摘されやすい説明性(なぜその操作をしたか)を、言語モダリティで補う設計意図が明確である。

この系譜は、特許側でも“センサー由来の環境表現をベクトル化し、言語モデルで出力生成する”構成(自動運転×言語モデルの統合)として現れており、研究・製品の両面から“説明/対話可能な自動運転”へ投資していることが示唆される。

参考文献

自動運転

AIガバナンス・リスク管理フレームワーク

金融規制・ガイドライン

Agentic AI 技術

セキュリティ

ヘッドウォータース

Discussion