🌟
自動運転基盤モデルの最前線 #1 (VLAモデルで挑む自動運転)

Kento Sasaki
2025/08/15に公開
 1. はじめに完全自動運転の実現を目指すスタートアップ「チューリング」でリサーチエンジニアをしています、佐々木です。現在、Vision-Language-Action (VLA) モデルの研究開発に取り組んでいます。
本記事では、自動運転VLAモデルの概要と最新の研究動向を整理し、今後の取り組みについて掘り下げていきます。

 1.1 自動運転システムの概要まずは、本題に入るまえに自動運転システムのパラダイムについて確認していきましょう。
Modular-based System

モジュラーベースシステムは、3P (Perception → Prediction → Planning)のパイプラインを個別のモジュールとして設計し、統合することで動作します。モジュラーベースシステムの利点は、各モジュールを独立に開発、改善できる点です。しかし、モジュールごとに最適化目的が異なるため、システム全体としての最適化が難しいこと、また逐次処理の過程で誤差が伝播・増幅しやすいという課題があります。
Comparisons of autonomous driving paradigms. figure source: https://arxiv.org/abs/2506.24044v1
Conventional End-to-End System

これに対し、End-to-End (E2E)は、上図 (a)のようにカメラやLiDARなどのセンサ入力に対し、直接経路や制御信号を出力します。E2Eでは中間表現を共有しつつ、マップ認識や物体検出などの複数のサブタスクを同時に学習できるため、全体最適化や計算効率化が可能です。また、学習データや計算資源をスケーリングすることで、飛躍的な性能向上が期待できます。とはいえ、出力結果が解釈しにくいことや、部分的な改善が困難な点は依然として課題です。
加えて、最も大きな課題は、「稀で複雑なシナリオにおける対応」です。例えば、次の工事現場の場面を考えてみましょう。
Complex traffic scenario in a construction zone. figure source: https://huggingface.co/datasets/turing-motors/Japanese-Heron-Bench
画像には2人の交通誘導員がおり、看板には記号や自然言語の指示が書かれ、道路上にはコーンが並び、信号機があります。もしも信号機が青に変わっても、交通誘導員が「止まれ」の指示を出していれば停止しなければなりません。一方、「進め」の合図があっても、もしも交差点から対向車がこちらへ向かってくる場合は、一方通行の規制に従い停止して対向車に道を譲ってから進まなければなりません。
こうした状況では、人間は自然に「もしXならば、Yする」を言葉で考えて判断しています。ところが、これまでの自動運転システムではこのような柔軟な判断はできません。
Foundation Model-based System

そこで、この課題を解決するべく、上図 (b)のようにVision-Language Model (VLM)を自動運転分野において活用する新たなアプローチが登場しました。VLMは視覚認識と自然言語理解を統合でき、画像キャプション生成や質問応答など多くのタスクで高い性能を発揮してきました。この能力を活かせば、従来では対応が困難だった工事現場のような稀で複雑なシナリオでも、シーンをより意味的に理解し、柔軟な判断ができるようになると期待されています。
しかし、VLMは画像入力に対してテキストを出力するように学習されているため、実際に車両を動かすためのアクションを直接生成することができません。そこで登場したのが、図(c)に示すVision-Language Action (VLA)モデルです。VLAモデルは画像入力に対し、アクション生成までを行うため、アクションポリシーを学習します。
次節では、自動運転におけるVLM活用の研究事例を紹介し、そのあとVLAの最新動向を見ていきます。

 1.2 自動運転におけるVision-Language Model自動運転においてVLMを活用する研究は、大きく以下の2つの方向性に分けられます。

Scene Understanding & Action Planning: 言語を介して運転シーンの理解しながら行動を計画する

Language as an Interface: ドライバー・自動運転システムのインターフェースとして自然言語を利用する
では、これらについて順に確認していきましょう。
Scene Understanding & Action Planning

VLMを自動運転に活用する上で、言語を介して運転シーンを正しく理解し、行動計画を立てることは最も期待されている方向性です。とりわけ、先ほど例にあげた工事現場のような稀で複雑な状況では、多様な要素を統合的に解釈する必要があり、VLMの汎用的な画像理解と自然言語理解の組み合わせが強みになります。
しかし、従来のVLMは主にWebから収集した画像-テキストペアで学習されており、自動運転ドメイン特有のシーンやコンテキストほとんど含まれていません。このギャップを埋めるため、自動運転に特化したデータセット、ベンチマークが最近、整備されつつあります。
例えば、LingoQAは4秒間の動画クリップに対して、Scene Description (例：信号機がありますか？もしあるならば、何色ですか？)、Attention (例：どこに注意すべきですか？)、Action Justification (例：今なぜそのアクションを取っていますか？)といったカテゴリでVQAベンチマークを構築しています。

Examples from the LingoQA benchmark. figure source: https://arxiv.org/abs/2312.14115v4
nuScenes-QAは、自動運転研究で最も広く利用されているnuScenesデータセットを基に各キーフレームを1シーンとしてシーングラフを構築し、QAテンプレートからExistence, Counting, Query-object, Query-status, Comparisonの5カテゴリのQAを自動生成します。これにより、物体の有無や属性、空間関係、数量比較など、交通シーン理解に必要な基本能力を網羅的に評価できます。
Data construction flow on NuScenes-QA. figure source: https://arxiv.org/abs/2305.14836
さらにDriveLMは、VQAをwhat–which–where–how–whyのグラフ形式に拡張し、Perception → Prediction → Planning → Behavior → Motionの5段階の論理依存関係をグラフ構造として定義します。各質問は関連する親ノードからコンテキストを受け取り、Chain-of-Thoughtによって推論します。これにより、シングルQAでは捉えきれない複合的な交通状況の理解と計画判断をモデルに要求できます。
Overview of DriveLM. figure source: https://arxiv.org/abs/2312.14150
これらの研究はまだ萌芽段階ではありますが、VLMを自動運転へ応用するための基礎は着実に築きつつあります。とはいえ、DriveBench (ICCV'25)が指摘するように、依然として以下のような課題が残っています。
時空間認識能力の不足
現在のVLMは、動的オブジェクトの位置関係や将来挙動の推定など、一貫した時空間理解が不十分です。複数フレームやマルチモーダル情報の効率的に扱うための工夫が求められます。私たちはこの課題に取り組んでおり、自動運転ドメインにおけるVLMの時空間理解能力を向上するためのデータセットSTRIDE-QA (ICCV'25 WS)を構築しています。
視覚情報活用の不十分さ、ハルシネーション
入力画像を正確に把握できておらず、言語モデルの一般知識やデータセットバイアスに依存する傾向があります。その結果、モーションブラーや霧などで視覚情報が欠落している場合にも、見えていない内容をもっともらしく生成してしまうハルシネーションが発生します。
続いて、もう一つの重要な方向性として自動運転システムのインターフェースとして言語入力を活用するアプローチについて見ていきましょう。
Language as an Interface

このアプローチでは、人間が自然言語でシステムに指示し、それをアクションに反映することを目指します。例えば「左に止まっている赤い車両の後ろに停車してください。」といった指示をシステムが理解し、具体的なアクションを行います。
代表的な研究にTalk2Car (ACL’19)があります。Talk2Carは自動運転ドメインにおける言語指示によるオブジェクト参照を対象とし、クラウドソーシングで収集した自由形式の言語指示とそれが指す3Dバウンディングボックスをアノテーションしています。
さらに、このタスクを包括的に拡張したTalk2BEV (ICRA’24)では、俯瞰視点で道路状況を2Dマップとして表現するBird’s-Eye View (BEV)マップに、マルチビュー画像やLiDARから抽出した物体ごとの言語特徴を統合し、自然言語で直接クエリ可能にします。これにより、「右車線の白いバンの後ろは空いていますか？」といった空間参照だけでなく、「前方20m直進できるか？」や「前方の車は工事車両か？」といった属性理解や意思決定に関する自然言語クエリも可能になっています。
Overview of Talk2BEV. figure source: https://arxiv.org/abs/2310.02251
こうした研究は、自然言語による物体参照や質問応答を実現しているものの、まだ言語理解を直接アクションに結びつけることはできません。そこで、最近では言語理解と行動生成を統合したVision-Language-Action (VLA)モデルの探求が進められています。

 2. Vision-Language-Actionモデルそれでは、いよいよ本記事の本題であるVLAモデルについて深堀りしていきましょう。
Vision-Language-Action (VLA)モデルは、その名のとおり視覚・言語・アクションの3つのモダリティを統合し、視覚入力を言語的に理解したうえで、適切なアクションを出力します。従来のVLMは、CLIP系のVision Encoderを用いて、Vision-Languageアライメントを実現してきましたが、VLAモデルでは、Language-Actionアライメントも不可欠です。すなわち、「視覚情報を言語を介してどのように理解したのかを、アクションに反映する方法」を学習しなければなりません。
そのためには、言語とアクションが時刻同期で紐づいたデータセットの構築と、適切なアクションポリシーの学習方法が重要となります。以下では、まずVLAモデル向けデータセットの代表例を紹介し、そのあとにアクションポリシーの学習手法へと話を進めます。

 2.1 データセットここでは、自動運転VLAについてデータセットの観点から見ていきます。特に、データ収集やアノテーション設計に加え、対応するモデル提案や評価を含む代表的な事例を紹介します。
CoVLA-Dataset (Turing)

チューリングでは、CoVLA-Dataset (WACV’25)を構築しました。このデータセットは、自社で収集した80時間超の走行動画に対し、「自車両は低速で走行しており、右折します」のような言語記述を自動付与しています。また、画像フレーム、自車両の将来軌跡、言語アノテーションは時刻同期されています。このデータセットで学習したCoVLA-Agentは、現在の走行シーンを自然言語で記述し、対応する将来軌跡を生成することができます。

CoVLA framework overview. figure source: https://arxiv.org/abs/2408.10845
EMMA (Waymo)

米Waymoが提案したEMMAは、GeminiをベースにしたVLAモデルです。このモデルを学習するために、カメラ映像やナビゲーション指示、車両状態といったマルチモーダル入力に加え、それらに対応する言語アノテーションを付与した独自のデータセットを構築しました。アノテーションは以下の4種類に分類されます。

Scene description: 天候、時間帯、交通状況、道路条件など、シーン全体を広く説明します。

Critical objects: 自車の走行に影響しうる重要なエージェント（歩行者や他車両など）を特定し、その正確な3DまたはBEV座標を示します。

Behavior description of critical objects: 特定した重要物体の現在の状態や意図を説明します。

Meta driving decision: これまでの観測に基づいた運転計画を要約します。
実験の結果、Critical objectsやMeta driving decisionのアノテーションは、モデルの性能向上に寄与する一方、冗長なシーン記述は効果が薄いことが示されました。特に、自車両の経路や行動を予測するPlanningタスクでは、言語表現の設計が精度に大きく影響することが明らかになっています。これは、VLAデータセット設計において「どのような情報をテキスト化すべきか」を判断するための有用な指針となります。なお、プランニングのアノテーションは自動付与が難しく、スケーラブルかつ効果的な生成手法は今後の課題です。
SimLingo (Wayve)

英Wayveは、Language–Actionアライメントの評価・改善を目的としたVLAモデルSimLingoを提案しています。このモデルの学習・評価には、独自に生成したSimLingoデータセットを使用します。データ生成にはCARLAシミュレータを用い、同一の視覚コンテキストに対して複数の異なる言語指示と、それに対応するアクションを合成します。これにより、モデルが指示に応じて行動を切り替える能力や、不適切な指示を拒否する能力を定量的に評価できます。
Overview of SimLingo. figure source: https://arxiv.org/abs/2503.09594
ここまで、自動運転VLAの代表的なデータセットと、その設計上の特徴を紹介しました。続いては、これらのデータセットを活用して、どのようにアクションポリシーを設計・学習するのかを見ていきます。

 2.2 アクションポリシーVLAモデルにおけるアクションポリシーは、言語で理解した内容をどのように具体的な運転行動に落とし込むかを決定する中核です。本節では、その実現方法として代表的な3つのアプローチを紹介します。

 2.2.1 学習可能クエリSimLingoやCoVLA-AgentなどのVLAモデルでは、学習可能クエリを用意し、予測したクエリをAction Headで軌跡に変換する設計が採用されています。各クエリは「将来 t 秒後の地点」を表す学習可能なトークンです。この方法では、将来時刻ごとに専用クエリを持つため、リカレント処理を介さずにすみ、クエリ数 N に比例する O(N) の計算量で並列推論が可能です。また、VisualトークンやTextトークンとクロスアテンションすることで、クエリが言語特徴を直接参照でき、指示内容と軌跡生成を自然に整合させる言語条件付けを学習できます。
一方、各クエリは連続値を直接回帰するため多峰的な将来分布を表現しにくいこと、クエリを並列に保持しメモリ消費が増大することが課題としてあります。
CoVLA-Agent architecture. figure source: https://arxiv.org/abs/2408.10845

 2.2.2 軌跡ボキャブラリつぎに、将来軌跡をトークン列として順次生成する手法について紹介します。DriveGPT (ICML’25)は2D加速度ベクトルを有限個にクラスタリングしたボキャブラリを用意し、モデルは各タイムステップごとに、このボキャブラリの中から対応するトークンを自己回帰予測します。この手法では、軌跡生成を言語モデルのNext Token Predictionの枠組みで行うことで、スケーリング則をそのまま享受できるメリットがあります。一方で、軌跡を有限数の語彙に量子化して表現する場合、り詳細な軌跡を表現するには語彙サイズを増やす必要があり、それに伴って推論コストも増大するというトレードオフがあります。
また、Poutine (CVPR’25 WS)は、CoVLA-DatasetとWaymo WOD-E2Eデータセットを用いて、複数の候補行動を相対評価しながら方策を更新する強化学習手法Group Relative Policy Optimization (GRPO)で学習したVLAモデルです。タスクとしては、重要物体の特定 (Critical object identification)、重要物体の説明 (Critical object description)、運転計画の要約 (Meta driving decision)、将来軌跡の予測 (Future trajectory prediction)を思考連鎖型推論 (Chain-of-Thought reasoning)で逐次生成します。この手法により、CVPR'25で開催されたWaymo Vision-Based End-to-End Driving Challengeでは1位のスコアを獲得しています。
DriveGPT architecture. figure source: https://arxiv.org/abs/2412.14415

 2.2.3 拡散ポリシー学習可能クエリ方式では、出力が平均的な1つの軌跡に収束しやすく、多様な将来行動パターンを十分に表現できないという課題があります。一方、軌跡ボキャブラリ方式は、語彙サイズの増加に伴って計算コストが指数的に増大し、さらに逐次予測で誤差が蓄積しやすいという問題を抱えています。こうした制約を克服するアプローチとして注目されているのが、拡散ポリシー（拡散モデルを用いて軌跡やアクション分布を生成する手法）です。これらは複数のあり得る将来のパターン（多峰的なアクション分布）を直接モデリングできるため、複数の妥当な将来行動を同時に表現することが可能です。
最近では、中国の自動車メーカーLiAutoがReCogDriveを提案しています。この研究では、3つのステージに分けてモデルを学習します。まずステージ1（図左）でDriveLMやLingoQAを含む12のオープンデータセットを用いて、VLMを自動運転ドメイン向けに事前学習します。次にステージ2（下図右）では、拡散ポリシーによる模倣学習を行います。具体的には、Ground Truth軌跡の各座標 (x, y, θ) にガウスノイズを加え、そのノイズを予測してL1/L2 Lossで損失計算します。
Model architecture and Training Pipeline of ReCogDrive. figure source: https://arxiv.org/abs/2506.08052
最後のステージ3では、GRPOを用いて拡散ポリシーを強化学習します。この際の報酬としては、NAVSIMベンチマークのPDM Scoreを構成するNo At-Fault Collision（衝突回避率）、Drivable Area Compliance（走行可能領域遵守率）、Time-to-Collision（衝突までの余裕時間）など複数の指標が用いられます。これにより、モデルはこれら評価観点を共同最適化できるようになります。このように、拡散ポリシーで多峰性の分布をそのまま表現できるからこそ、GRPOで評価指標と同様の報酬を与えて学習でき、その長所を活用した好例となっています。
Comparison of Training Paradigms. figure source: https://arxiv.org/abs/2506.08052
このセクションでは、自動運転VLAのアクションポリシーを学習するための3つのアプローチを紹介し、それぞれのメリット・デメリットについて確認しました。
それでは最後のセクションに移りましょう。最後のセクションでは、現在の研究動向を踏まえてこれからの注目ポイントを紹介します。

 2.3 これからの注目ポイントこのセクションでは、これからの注目ポイントとして、ベンチマーク、マルチビュー・時系列モデリング、車載デプロイについて紹介します。

 2.3.1 ベンチマーク1つ目の注目ポイントは、ベンチマークです。従来の自動運転モデルでは、衝突率やGT軌跡と予測軌跡の一致度などを用いて、安全かつ正確な軌跡予測ができているかを評価してきました。しかしVLAモデルでは、「左折します」といった言語出力や言語指示に対して、実際のアクションが整合しているか、すなわちLanguage-Action Alignmentを評価する必要があります。
SimLingo (Wayve)はこの整合性を持たせるために前述のAction Dreamingタスクを行っています。同一の画像入力に対して「左折してください」、「直進してください」などいくつかの指示を与え、各指示に対応したアクションが生成できているのかを成功率で評価します。また、Dreamer Flagにより、Flag ON時は指示に従い、Flag OFF時は「クラッシュせよ」など不適切な指示を拒否できるかも確認します。
DriveAction (LiAuto)は、アクションを起点としたツリー構造の評価フレームワークを採用しています。多様な運転シナリオを基に、ナビ指示の追従、信号・標識の解釈、障害物回避など14種類のQAタスクを構成しています。各アクションに必要な視覚・言語タスクを動的に紐づけ、多段階の推論と行動計画能力を統合的に評価します。
Example of the VLA Pipeline in Traffic Sign Task. figure source: https://arxiv.org/abs/2506.05667v1
今後はこれらに加え、安全性、協調性、歩行者優先といった社会の価値観や倫理規範との整合性を評価する枠組みも求められるでしょう。
このテーマについては、テックブログ「言葉で守る自動運転の安全と倫理 –マルチモーダル時代のアラインメント戦略」で解説しています。

https://zenn.dev/turing_motors/articles/d00242f0d6238f
また、YouTubeのテックトークアーカイブもご覧いただけます。

https://www.youtube.com/live/Hij9p2E8X8Q?feature=shared

 2.3.2 マルチビュー・時系列モデリング続いて、マルチビュー・時系列モデリングについて見ていきましょう。
これまで紹介した自動運転VLAモデルの多くは、フロントカメラのシングルフレーム入力を前提としてきました。しかし、自転車の巻き込み確認や車線合流などの状況では、シングルフレームのみでは不十分であり、マルチビューかつ時系列モデリングを考慮する必要があります。
DiMA (Distilling Multi-modal Large Language Models for Autonomous Driving)は、マルチビュー・マルチフレーム画像から得られるBEV特徴をもとに、B: BEV Token, E: Ego Token, A: Agent Token, M: Map TokenといったBEAMトークンに変換します。これらの構造化トークンはQformerによって埋め込み表現に変換され、マルチモーダルLLMに入力されます。MLLMはVisual QA（Perception, Prediction, Planningに関する質問応答）や、Masked BEV Reconstruction / Future BEV Prediction / Scene EditingといったSurrogate Taskを統合的に学習し、BEAMトークンを言語に紐づけます。
Overview of DiMA. figure source: https://arxiv.org/abs/2501.09757
一方、BEV表現を離散トークンに変換するため、情報損失が避けられません。そこで、より効率的かつ情報損失の少ないマルチカメラ画像の離散トークン化手法が模索されています。例えば、NVIDIAはTriplaneを用いる手法を提案しています。
Triplaneは3枚の直交する特徴平面 (XY, XZ, YZ) によりシーンを固定解像度の格子として表現します。カメラ画像を特徴マップ化し、3D–2D射影に基づく画像間・画像内アテンションで3Dクエリを更新、空間方向ごとの平均化でTriplaneを生成します。この表現はカメラ数や解像度に依存せず、パッチ分割による効率的なトークン化が可能です。
Triplane-based multi-camera tokenization.　figure source: https://arxiv.org/abs/2506.12251v2
こうしたマルチビュー・時系列モデリングは精度向上に寄与する一方、モデルや計算量が増大する傾向があります。最後に、これらモデルを車載デバイスにデプロイするための工夫についてまとめます。

 2.3.3 車載デプロイ従来の自動運転モデルに比べ、VLAモデルはパラメータ数が大きく計算コストも高いため、車載デバイス上でリアルタイムに動作させることは容易ではありません。こうした制約を克服するために、近年はモデル圧縮、トークン効率化、計算資源の動的配分といったアプローチが行われています。
まず、DiMAは大規模VLAモデルの知識を軽量なE2Eプランナーに蒸留することで、計算量とレイテンシを大幅に削減します。Triplaneはマルチカメラ入力をコンパクトな3D因子化表現に変換することで、最大72%のトークン削減を実現します。Transformerベースのモデルは、トークン数削減が計算負荷低減と推論速度向上にそのまま反映されます。
さらに、DriveVLM-Dualは、通常走行時は軽量な従来のE2Eモデルで効率的に処理し、稀で複雑なシナリオではVLMの出力を活用するデュアルシステムを採用しています。この構成により、性能とリアルタイム性を両立し、実際にNVIDIA OrinX搭載車両での運用実績も報告されています。
DriveVLM and DriveVLM-Dual model pipelines. figure source: https://arxiv.org/abs/2402.12289
このように、モデル圧縮、トークン効率化、そしてデュアルアーキテクチャなどの戦略は、VLAモデルを車載デバイスにデプロイし、現実の走行環境で実用化するための重要な鍵となります。

 3. まとめ本記事では、自動運転におけるVision-Language Model (VLM)およびVision-Language-Action (VLA)モデルの最新動向を整理し、現状の課題と今後の方向性を概観しました。特に、まれで複雑な交通状況において、言語を介した思考プロセスをどのように実際の自動運転システムへ統合するかが、現在の研究開発の焦点となっています。
このテーマについては、オンラインテックトーク「VLAモデルで挑む完全自動運転」でもさらに深掘りして解説します。ぜひ、connpass申し込みフォームよりエントリーください！

開催日時⌚：2025年8月21日 (木) 19:00-20:00

開催場所📌：オンライン

https://turing.connpass.com/event/365853/
チューリングは、NEDOが実施する国内の生成AIの開発力強化を目的としたプロジェクト「GENIAC」に第1期、第2期につづき、第3期に採択されました。完全自動運転に向けた車載可能なフィジカル基盤モデル の開発を加速していきます。

https://tur.ing/posts/BnvFBAos