RACER: 自動運転VLAモデルの学習データセットの構築
はじめに
こんにちは、チューリングのVLAチームでインターンをしています、法政大学 M1 の永井です。
本記事では、自動運転のVLA (Vision-Language-Action; 視覚-言語-アクション)モデルを学習するための RACER: Rationale-Aware Captioning of Edge-Case Driving Scenarios (エッジケース運転シナリオに対する根拠付きキャプション生成) データセットの概要と構築方法について紹介します。

(日本語訳)自車は、現在の車線を制御している赤信号に従う必要があるため停止を決定した。前方の白い車両が完全に停止しており前進できないため、安全な停止距離を保って停止する必要がある。さらに、左側に駐車している大型トラックやコーンや標識が設置された工事区域により横方向への回避はできない。加えて、実線の車線区分線やバリアによって現在の車線を維持することが求められており、停止することが唯一の実行可能な行動となっている。
自動運転システムにおける VLM の活用
まず背景として、自動運転システムにおけるVLMの活用について簡単に説明します。
近年、自動運転システムはモジュール型システムからEnd-to-End(E2E)方式へとシフトしつつあります。End-to-Endシステムは、カメラやLiDARなどのセンサー情報をニューラルネットワークに入力し、運転アクションを直接出力します。(詳しくはテックブログ:自動運転基盤モデルの最前線 #1 (VLAモデルで挑む自動運転)をご覧ください。)

E2E方式による自動運転の概要
このようなE2E自動運転システムは、一般的な交通状況には対応できる一方で、ロングテールシナリオ(稀に発生する複雑な状況)への対応には課題があります。例えば以下のシーンでは、「工事中で片側車線が塞がれており、交通誘導員の指示に従いつつ、横から横断を試みる親子にも気を配らなければならないという複雑な場面です。このようなシナリオは学習データに十分に含まれておらず、また、E2E のような明示的な思考を伴わないモデルにとっては状況が絡み合った複雑なシナリオへの理解が十分ではないという課題があります。

交通誘導員が自車両に対して停止を指示している。また、その停止位置は路肩に設置してある看板によって指示されている。さらに、右側からは自転車に乗った親子が現れており、複雑な運転判断を要する場面
こうした状況に対し、解決策の1つとして注目されているのが、自動運転分野へのVLM (Vision Language Model)の活用です。VLMは様々な視覚-言語タスクで高い性能を示しています。このような能力は、ロングテールシナリオで見られる複雑なシナリオに対しても、その豊かな思考力を持って柔軟な運転判断ができることが期待されます。
VLAモデルを用いた自動運転
思考力に長けた VLM ですが、その出力は基本的に言語に限定されるため、自動運転において必要となる運転進路や制御指令を直接出力することはできません。そこで用いられるのが VLA(Vision-Language-Action)モデルです。VLA モデルは、VLM の出力を制御(Action)の予測まで拡張したモデルであり、視覚と言語に加えて行動を統合的に扱うことができます。このアプローチはもともとロボティクス分野で提案されたものですが、近年では自動運転における制御予測にも応用されています。これにより、VLM が持つ豊かな思考能力を活用しながら、複雑な交通状況に対して適切な運転行動を生成することが可能になります。
既存のリーズニングデータセットの課題
VLA モデルをトレーニングするためには、「画像」+「言語(運転行動やその理由の説明文)」+「制御(進路予想など)」がセットになったデータセットが必要になります。特に言語に関しては実際の観測結果が存在しない為、人手または自動アノテーションが必要になります。既存の自動アノテーションデータセットでは、QA形式やCoT(Chain of Thought)形式がとられていますが、柔軟性の欠如やアノテーションテキストの品質について課題があります。特に後者のような自由記述形式のアノテーションの場合、運転判断の理由が実際の状況と十分に結びついていないなどといった問題があります。具体的には、以下のようなケースが挙げられます。
VLA モデルをトレーニングするためには、「画像」「言語(運転行動やその理由の説明)」「制御(進路予測など)」がセットになったデータセットが必要になります。しかし、言語情報はセンサのように直接観測できるものではないため、人手によるアノテーション、もしくは自動アノテーションによって付与する必要があります。既存の自動アノテーション型データセットでは、主に QA(Question-Answer)形式や CoT(Chain of Thought)形式などが用いられています。ただし、これらの方法にはそれぞれ課題があります。例えば、QA 形式では表現の柔軟性が制限される場合があり、CoT のような自由記述形式ではアノテーションテキストの品質が安定しないことがあります。特に後者の場合、運転判断の理由が実際の状況と十分に結びついていないケースも見られます。具体的には、以下のような問題が挙げられます。
- 曖昧な行動説明: 自車両が何をすべきなのかが曖昧な説明
- 表層的な理由付け: 自車両の行動との因果関係が曖昧、または表層的な理由付けにすぎない
- 因果の混乱: 因果的に誤った判断をしてしまったり、まだ観測していないはずの未来の出来事を要因とした因果関係を構築してしまう

『Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail』より引用
例えば上図(左)では「道路脇の物体にぶつからないように注意すべきです」とあり、これは具体的な操作を特定できない曖昧な行動説明です。同じく左の例で見られる「自車両は狭い道を走っています」という記述は「狭いからどうする」という自車両の行動との直接的な因果関係が見られません。さらに上図(右)では「現在のスピードを保ちつつまっすぐ進む」とありますが、実際には正面には工事現場があり、実際は車線を変更して避けなければならない、誤った記述です。
これらの問題を解決する方法の一つとして Chain-of-Causation (CoC) という考え方があります。CoCでは、運転行動の説明を単なる文章ではなく、意思決定に影響する要素と行動の因果関係、つまり、「どの要素がどのような影響を及ぼし、その結果としてどの運転行動が選択されたのか」を明示的に考慮させるリーズニング方法を採用します。
Alpamayo-R1
Alpamayo-R1 (2025年10月30日論文公開)はNVIDIAが開発した自動運転用 VLA モデルであり、CoC 形式のデータセットを用いて学習されています。
従来のキャプション型データセットでは行動と理由の結びつきが曖昧になりがちでしたが、CoCデータセットでは意思決定に関与する要素と運転行動の関係を明示的に表現することで、より一貫したリーズニングと行動予測を実現しています。

『Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail』より引用
RACER: Rationale-Aware Captioning of Edge-Case Driving Scenarios
チューリングでは、日本の複雑な道路環境で走行可能な自動運転モデルの構築を目指しており、その一環として VLA モデルの開発を進めています。これらのモデルの学習には、日本で収集された走行データに紐づくテキストデータセットが必要となります。そこで今回、東京での走行データを対象として運転意図キャプションを付与し、RACER データセットを構築しました。
本データセットは、Alpamayo の学習に用いられた CoC データセットを参考に設計しています。チューリングが都内で収集した走行データからサンプリングした 100時間以上の走行データを対象
にキャプショニングを行いました。
データセットサンプル

(日本語訳)自車両は、工事区域の手前で停止するよう交通誘導員がバトンで合図しているため、減速して停止しました。工事区域によって左車線が封鎖され、道路幅が狭くなっているため、制限されたスペースを安全に通行するには交通誘導員の指示に厳密に従う必要があります。

(日本語訳)自車両は、交通誘導員が停止の合図を出しているため、横断歩道の手前で停止することを決定しました。さらに、一時停止標識により完全停止が義務付けられており、右側から車道に進入してくる自転車との潜在的な衝突を避けるためにも、譲るか停止する必要があります。

(日本語訳)自車両は停止状態から再び走行を開始し、車線を維持しました。これは、交通誘導員が工事区域を通過してよいという合図を出していたためです。工事により道路幅が狭くなり、一時的に単一車線での通行が必要となっているため、本来は車線変更を制限する実線の車線標示がある場合でも、交通誘導員の指示に厳密に従う必要があります。
データセットパイプライン
RACER データセットでは、因果関係を明確にした推論テキストデータを自動生成するため、以下の4段階パイプラインを設計しました。なお、ステップ1、ステップ2ではQwen3-VL-235B-A22B-Instructを、ステップ3ではQwen3-VL-235B-A22B-Thinkingを採用しています。
ステップ 0: キャプショニング対象シーンの選定
ステップ 1: 意思決定に関係する要素の検出
ステップ 2: 実際の運転判断の推定
ステップ 3: 因果関係に基づく説明生成

パイプラインの概要図
ステップ 0: キャプショニング対象シーンの選定
最初のステップでは、大量の走行データの中から、ロングテールシナリオを中心にキャプションを付与するキーフレームを選定します。選定にはNVIDIA映像-テキスト埋め込みモデルCosmos-Embed1を用いたシーン検索システムを利用します。
このシステムにより、走行データの中から所望のシーンを効率的に抽出でき、ロングテールシナリオを重点的に含むデータセットを構築することが可能になります。例えば “construction zone” と検索すると、以下のように工事現場のシーンを抽出できます。

“construction zone”で検索し、シーンを抽出する例
ここからは、以下に示したサンプルシーンに対する推論結果を例として、各ステップの解説をします。

サンプルシーン
ステップ 1: 意思決定に関係する要素の検出
因果関係を構築するためには、まず「意思決定に影響を与える要素」を特定する必要があります。そこで本ステップでは、入力された画像列のうち過去フレームのみを参照し、運転判断に影響を及ぼす可能性のある物体を VLM に列挙させます。
過去フレームのみを参照する理由は、未来フレームの情報を用いて要因を特定すると、将来発生する事象や観測される物体を過去の運転判断の原因として扱うことになり、時系列として不整合な因果関係が生成されてしまうためです。
サンプルシーンでは、
- 交通誘導員
- 対向車
- 工事現場
が検出されます。いずれも自車両の運転判断に影響を与える可能性のある要素です。
ステップ 2: 実際の運転判断の推定
次に、実際に行われた運転判断が何であったのかをVLMを用いて推論します。このステップでは、入力された全フレームを参照し、特に未来フレームで観測される行動が、あらかじめ与えられた選択肢のうちどれに該当するかを推論させます。
選択肢は、縦方向の制御と横方向の制御についてそれぞれ用意されており、モデルはその中から該当するものを選択します。
サンプルシーンでの運転判断としては、実際の運転判断に整合するように、
縦方向:減速
横方向:操作なし
となります。
ステップ 3: 因果関係に基づく説明生成
最後のステップでは、ステップ 1 で検出した「自車両の意思決定に影響を与える要素」とステップ 2 で判定した「将来の運転行動」を考慮し、因果関係を明示した説明を生成します。ここでは他のステップ以上に深い推論を要するため Thinking モデルを採用しました。
サンプルシーンでは、Step1 で得られた「交通誘導員や工事現場、対向車」という原因から、Step2 で得られた「減速する」という結果を導くリーズニングとなります。
よって
道路工事により車線が減少しており、対向車が向かってくる。この状況に対し、交通誘導員が自車両に向けて停止を指示しているため停止に向けて減速をする。
といった内容になります。
このように、因果を段階的に特定することで、既存の自動運転 VLA データセットの課題であった「曖昧な行動理由」、「表層的な理由付け」、「因果の混乱」が抑制された高品質なテキストの生成が可能になります。
データセットの利用方法
1,000件のサンプルデータをHuggingFaceで公開しています。以下のリンクから参照してください。
まとめ
このテックブログでは、自動運転のVLAデータセットRACERの概要と構築方法について紹介しました。既存の自動運転VLAデータセットは、「因果関係の混乱」や「曖昧で浅薄な記述」と言った問題がありましたが、それらの解決を目的とし、自動アノテーションパイプラインを用いて、運転行動の判断理由を説明させることを可能にしました。
今回、チューリングでのインターンは、私にとって初めてのインターン経験でした。これまで大学では研究用のコードを書く機会は多くありましたが、チーム開発におけるコーディングや開発プロセスなど、これまで経験したことのない多くのことを学ばせていただきました。
また、強い熱意と高い技術力を併せ持つ方々に囲まれて働く日々は非常に刺激的で、成長の場としてもとても魅力的な会社だと感じました。
チューリングのインターンに興味ある高専生・大学生・大学院生は以下のリンクからエントリーください。
Discussion