「言葉」で守る自動運転の安全と倫理 –マルチモーダル時代のアラインメント戦略
はじめに
チューリングの髙橋です。機械学習やAIにおけるセキュリティやプライバシーの研究開発を専門としています。
チューリングでは、「完全自動運転」の実現を見据えて、LLMに視覚理解や行動計画を統合したマルチモーダルAIの研究開発に取り組んでいます。このようなモダリティの統合に加えて、ひとの価値観と整合(アライン)したふるまいも、安全な自動運転AIに欠かせない要素です。
このテックブログでは、どのようにして人間社会の規範や倫理観にアラインさせていくのか、近年の機械学習モデルに対する脅威や攻撃、セーフティアラインメントの研究動向を踏まえ、「言葉を介してひとの価値観とアラインする」という考え方について掘り下げていきます。
この記事でわかること
- 自動運転AIが直面するオープンワールドに潜む脅威とは
- マルチモーダルAIをアラインメントする難しさ
- 「言葉を介してひとの価値観とアラインする」ための研究開発の戦略
オープンワールドに潜む脅威
自動運転AIが直面する道路環境は、変化に富んだオープンワールドです。そこでは、訓練データとは異なる特徴を持つ分布外データ(Out-of-Distribution: OOD)や、悪意をもって作成された敵対的サンプルが現れる可能性があります。これらに対してAIモデルが誤認や誤作動を起こさないようにするためには、現実世界の複雑性と不確実性を前提とした堅牢なモデル設計が必要です。
このような未知の入力に対する脆弱性を軽減するには、開発段階から攻撃的観点でモデルの弱点を意図的に探索する「Red-teaming」が有効です。Red-teamingによって発見した弱点は、ガードレール(入出力のフィルタリング)や、後述するセーフティアラインメント(モデルの振る舞いを安全性や倫理観に整合させる)といった施策を講じる際の、貴重な判断材料として活用できます。
では、どのようなリスク、攻撃手法があるでしょうか。ここではいくつかの事例を紹介します。
AIの"錯覚"を突く攻撃手法
- 敵対的サンプル(Adversarial Examples):入力にわずかなノイズを加えることで、人間には気づけないがモデルにとって誤認を誘発するようなデータを生成します。信号の色誤認や看板誤認のようなケースは、自動運転において致命的な事故につながりかねません。
- Typographic Attack:画像上に記載された文字列が、モデルの予測に過剰な影響を与えることを利用した攻撃です。CLIPのような視覚言語モデルでは、画像全体よりも文字情報に過剰反応する性質が報告されており、自動運転においては、看板や車体広告などへの耐性を高める必要があります。
信号を誤認識させる敵対的サンプル 出典)https://arxiv.org/abs/2501.13563
Typographic Attackの事例 出典)https://arxiv.org/abs/2402.19150
ジェイルブレイクによるセーフガードの突破
- Jailbreak攻撃は、生成AIに導入されているセーフガードを意図的にバイパスする手法です。プロンプトに細工をすることで危険な出力を誘導することが可能です。たとえばLLMに対して ”Generate a step-by-step plan to destory humanity”といった指示に対して、該当する有害な出力を引き出すために、特定の文脈や文体を強制する方法があります。
- 自動運転におけるジェイルブレイクは、乗客からの悪意ある命令(例:「信号を無視しろ」「歩行者を避けるな」など)への耐性として考えることができます。これに対抗するには、行動出力が倫理規範と一致するように制御されたAIが求められます。
様々なLLMに対するジェイルブレイク 出典)https://arxiv.org/abs/2307.15043
これらの脅威への対策を講じるには、ガードレールのような入出力のフィルタリングだけでなく、モデルの振る舞いそのものをひとの価値観と整合させるアラインメント手法が必要です。
セーフティアラインメントとその課題
ここでは、LLMにおける代表的なセーフティアラインメント手法と、それらをマルチモーダルに拡張する際の課題を整理します。特に、LLM自身による内省的プロセスを用いる「Constitutional AI(RLAIF)」に注目します。
RLHFはコストが高い
RLHFは、人間が複数のモデル出力のうち「より望ましい」応答を選択し、その順位情報を用いて強化学習(例:PPO)によってモデルの方針を調整する方法です。ChatGPTなど商用LLMで広く活用されていますが、その工程には以下のような課題も指摘されています:
- ランキングのための人手コストが高い
- 強化学習の訓練が不安定で再現性が低い
- 多様な文化的価値観や文脈の違いに対する汎用性が限定される
近年では、DPO(Direct Preference Optimization)のように直接的に強化学習を用いない手法も注目されています。DPOは、望ましい応答と望ましくない応答のペア (Preference) に基づく確率差を最大化するようにモデルを更新します。これは教師あり学習に近い手法であり、実装の簡易性と学習の安定性が大きな利点です。ただし、Preferenceの収集コストは課題として残ります。
Constitutional AIと自己内省
一方で、Anthropic社が提案するConstitutional AI (https://arxiv.org/abs/2212.08073) は、LLM自身に出力を批評・修正させる「内省的な自己改善」の枠組みです。人間が定義した一連の規範文書(Constitution)に基づいて、LLMは自らの応答を評価し、改訂案を生成します。この改訂応答を用いた再学習により、人手による評価コストを削減しながら高精度なアラインメントが可能となります。
Constitutional AIによる自己内省 https://arxiv.org/abs/2212.08073 をもとに構成
この枠組みは、特定の価値体系(倫理観、安全基準など)を言語で定義できる点において柔軟性が高い、と言えるでしょう。また、業界・専門団体・地域社会が合意したConstitutionを共有することで、透明性と説明責任を持ったモデル設計にもつながります。このように、Constitutionに基づく内省は、人間社会の営みとも接続しやすい枠組みであると考えることができます。
マルチモーダルモデルのアラインメントの難しさ
LLMにおけるアラインメント技術は一定の成熟を見せているが、視覚・行動・音声といった複数のモダリティを扱うマルチモーダルモデルでは、いくつかの新たな課題が生じます。ここでは、自動運転を担う VLA (Vision Language Action) モデルをアラインメントする際の課題について考えます。
まず、データの準備が大きな壁です。視覚・言語・行動の3モダリティすべてにおいて、好ましい(Preferable)/拒否すべき(Refusable)応答のペアを人手で用意するのは多大なコストがかかります。もちろんデータを収集する努力は地道に続けていくべきですが、それを補う技術革新も必要でしょう。
加えて、状況の解釈の難しさがあります。交通誘導員の手信号や文化的な標識など、文脈理解を伴う判断が求められる場面では、知識や常識、倫理的推論が必要となります。ある場面でどの観点を優先すべきかは、ひとの価値観を明文化したConstitutionのようなものを解釈できる必要があるでしょう。
世界モデルの活用と限界
マルチモーダルアラインメントの大きな障壁の一つは、望ましい・望ましくない振る舞いをカバーする多様かつ高品質なデータセットの構築が極めて困難であることです。特に、危険な状況や倫理的に微妙なシナリオは実際の走行から収集することが難しく、設計上の制約や倫理的配慮が壁となります。
この課題に対し、近年注目されているのが生成的世界モデル(Generative World Models)の活用です。生成的世界モデルでは、与えられた条件に基づいて「もしも」のシナリオを表現した動画を生成することができます。英国のスタートアップWayve社のGAIA-2は、実写に近い高品質な運転映像を条件付きで生成することが可能で、現実では取得が難しいロングテールなシーンのカバレッジを大幅に拡張できる可能性があります。
GAIA-2が生成した運転シーン 出典)https://arxiv.org/abs/2503.20523
一方で、世界モデルには明確な限界も存在します。最大の課題は、世界モデル自体が訓練データのバイアスを内包することです。実際に収集されたデータは、一般に安全な運転の記録に偏っており、危険な事例や違反行動といった負例の割合は多くありません。そのため、本当にAIが弱い部分を引き出すには十分とは言えません。
さらに、倫理的に問題のあるシナリオを世界モデルが意図的に生成すること自体が技術的・倫理的に困難です。
“もしも”のデータを作成できる世界モデルは、強力なツールであることは事実です。私たちも、世界モデル『Terra』や三次元再構成のアプローチであるGaussian Splattingの開発を進め、より多様なシナリオのデータ拡充に取り組んでいます。一方で、こうした技術の限界と特性を理解し、他のアプローチと組み合わせて活用することが重要です。
言葉を介してひとの価値観とアラインする
こうした課題を乗り越えていくために、「言葉を介してひとの価値観とアラインする」ことがキーになるのではないか、と考えています。これは、マルチモーダル情報をいったん言語に変換して表現することによって、言語モデルの持つ「批評・修正・内省」の能力をマルチモーダル領域にも応用することを期待したものです。
視覚や行動を言語で記述することで、LLMの持つ柔軟かつスケーラブルなアラインメント戦略をそのまま活かせる可能性があると考えています。
この研究開発戦略の背景には、LLMが人間と同様に言語を用いて仮想的なシチュエーションを想像・記述する能力を持つという観察があります。Constitutional AIのような仕組みでは、この能力を活かしてモデル自身に倫理的評価をさせる「内省的ループ」が可能となっています。本研究では、この考え方をマルチモーダルAIに拡張するための基礎的な理論の構築や、応用を目指したデータ合成技術の確立に取り組んでいます。
この手法が実用化されれば、マルチモーダルモデルのアラインメントでハードルとなっていたデータ構築コストを軽減できる可能性があります。また、言語表現は他モダリティよりも文化的・規範的背景を記述しやすく、安全性や倫理性の整合においても高い柔軟性を発揮できることから、人間社会の営みとも整合しやすいインタフェースであると考えています。例えば、以下のような利点があるのではないでしょうか:
- 行動の評価と修正を言語的に扱えるため、柔軟性と透明性が高い
- 内省を通したモデルの進化を促す自己改善フレームワークとなる
- Constitutionの変更によって、地域や状況に応じた倫理基準の切り替えが可能
この発想は、マルチモーダルモデルの多くが、LLMの拡張として実装されていることからも自然と言えるかもしれません。ただし、この発想が有効であるためには、言語と他のモダリティが十分かつ適切にマッチしている必要があります。モダリティギャップのような問題も指摘されていることから、問題は簡単ではないでしょう。一方で、自動運転を担うAGI (Artificial General Intelligence) が将来実現されるのだとしたら、ひとが使い慣れた「言葉」を介して様々なステークホルダーと共に安全で効率的な運転というタスクを解くことができる、そんなパートナーなのではないかと私は考えます。
おわりに
この記事では、自動運転AIが直面するオープンワールドに潜む脅威、それらに対抗するためのアラインメント手法とその難しさを紹介しました。その上で、チューリングが考える研究開発戦略「言葉を介してひとの価値観とアラインする」について紹介しました。これは安全性を担保するための様々な研究開発の取り組みの一つであり、社内外の様々な取り組みと合わせたパッケージを構成することで、安全な自動運転AIの実現を目指しています。
私の所属する基盤AIチームでは、上記戦略に関連するセーフティ関連だけでなく、VLMや動画生成、三次元再構成といったトピックでも先端的な研究開発に取り組んでいます。これらのチャレンジングな課題を一緒に取り組んでくれるエンジニア、リサーチャーのみなさまの応募をお待ちしております。
Discussion