🛌

「DreamGen」が拓くロボット学習の新時代 

に公開

はじめに

近年、ロボット分野は目覚ましい進化を遂げています。その中でも、ロボットが多様なタスクをこなし、未知の環境にも柔軟に対応するためには、大量かつ高品質な学習データが不可欠です。しかし、こうしたデータの収集には多大なコストと手間がかかるため、実用規模でのロボット学習における大きな障壁となっています。

本記事では、このデータ収集の課題に対する革新的なアプローチとして、NVIDIAの研究論文 「DreamGen: Unlocking Generalization in Robot Learning through Video World Models」 を紹介します。

https://arxiv.org/abs/2505.12705

DreamGenは、ロボットが“夢を見ている”かのように、AIが生成したリアルな動画を通じて行動を学習する仕組みを提案しています。この手法により、実データへの依存を大幅に軽減しながら、ロボットの汎化能力を飛躍的に向上させる可能性が示されています。

論文概要

本論文では、ロボット学習におけるデータ収集のコストやSim-to-Realギャップといった課題に対処するため、合成データ生成パイプライン DreamGen を提案しています。DreamGenは、動画世界モデルを活用することで、現実的かつ多様なトレーニングデータを大規模かつ低コストで生成可能とし、汎用的なロボット学習の加速を目指します。

研究の詳細については、以下の公式紹介ページもぜひご確認ください。
https://research.nvidia.com/labs/gear/dreamgen/

ロボット学習におけるデータ収集の課題

深層学習を用いたロボットのポリシー学習、特に実世界でのマニピュレーションタスクにおいては、大量かつ高品質な学習データの収集が成功の鍵を握ります。これまで、主に以下の2つのアプローチによってデータが収集されてきました。

  • ヒューマン・テレオペレーション: 人間がロボットを遠隔操作し、その際の観測情報(例:画像)とアクション(例:モーター制御信号)から時系列データを収集する手法です。この方法では高品質なデータが得られる反面、タスクや環境ごとに多大な人的コストと時間がかかるため、大規模なデータ収集には不向きです。特に、新しいタスクや環境に対応するたびに新たなデータを収集し直す必要があり、スケーラビリティに課題があります。

  • シミュレーション: 物理シミュレータを用いて仮想環境内でデータを自動生成する手法です。低コストで大規模なデータセットの構築が可能である一方、現実世界との物理的な乖離(Sim-to-Realギャップ)が存在し、シミュレーションで学習したポリシーを実環境に転移することが困難であるという課題があります。また、シミュレーション環境の構築には専門的な知識や多くの工数を要する場合もあります。

これらの制約により、特定タスクに特化したモデルの構築は可能であるものの、未知の環境や多様なタスクに柔軟に対応できる汎用的なロボットの開発は依然として困難な状況にあります。

DreamGenの技術的アプローチ

DreamGenは、上述のようなデータ収集の課題に対し、「動画世界モデル(Video World Model)」 を合成データ生成器として活用するという新たな解決策を提案しています。

動画世界モデル とは、大量の動画データを通じて、「世界がどのように変化するか」「物体やエージェントがどのように相互作用するか」といった物理法則、因果関係、空間構造を内部に学習し、未来の映像やインタラクションの結果を予測・生成できるAIモデルです。DreamGenでは、この動画世界モデルが持つ豊富な事前知識をロボットのポリシー学習に応用しています。

DreamGenのプロセスは、以下の4つの主要なステップから構成されます。


DreamGenの4つのステップ 出典:論文 Figure2

Step 1: 動画世界モデルのファインチューニング

まず、インターネット規模の動画データで事前学習された動画世界モデルを、対象となるロボットの少量のテレオペレーションデータによってファインチューニングします。このプロセスにより、モデルはロボット固有の外観、動作の特性、物理的制約(例:関節の可動域)および基本的な運動能力を学習し、より現実的かつそのロボットらしい動画生成が可能になります。

本研究では、事前学習済みモデルの知識を維持しつつ、効率的にロボット固有の情報を取り込むために、LoRA(Low-Rank Adaptation) のような効率的なパラメータチューニング手法が採用されています。

LoRAとは?

https://arxiv.org/abs/2106.09685

LoRA (Low-Rank Adaptation) は、大規模言語モデルなどの事前学習済みモデルを特定のタスクに適応させるための効率的なファインチューニング手法の一つです。モデル全体のパラメータを更新する代わりに、一部の層に低ランクの行列を導入し、その行列のみを学習することで、計算・メモリコストを大幅に削減しつつ、高い適応性能を実現します。


低ランク行列による近似 出典:論文 Figure1

Step 2: 動画世界モデルによる行動予測シーケンスの生成

ファインチューニングされた動画世界モデルに、初期フレーム(ロボットがタスクを開始する瞬間の画像)言語指示(ロボットに実行させたいタスクを記述したテキスト) を入力すると、モデルはそれに応じてロボットがタスクを遂行する様子を描写する未来の動画フレーム群を生成します。

この一連の映像は、DreamGenにおいて 「Neural Trajectories」 と呼ばれ、ロボットがタスクを成功させるための理想的な視覚的軌跡を示します。

Step 3: 擬似アクションのラベリング

Step 2で生成されたNeural Trajectoriesは、あくまで視覚的な情報(ビデオフレームの連続)のみを含んでおり、ロボットのポリシーを学習に必要なアクション情報(各関節の動きなど)は含まれていません。そこで、生成された動画から対応するアクション系列を推定する必要があります。

DreamGenでは、以下の2つのアプローチを検討・活用しています。

  • 逆動力学モデル(Inverse Dynamics Model, IDM): ある状態(例:時刻 t の画像 s_t )から別の状態(例:時刻 t+H の画像 s_{t+H} )を予測するモデルです。別途学習したIDMを生成された動画に適用し、各フレームに対応するアクションを推定します。

  • 潜在アクションモデル(Latent Action Model): フレーム間の視覚的な変化量(visual delta)を、潜在空間上のアクション表現として学習するモデルです。実世界のアクションラベルを用いることなく、動画データのみから視覚的差異を抽象化した潜在アクションコードを取得します。


逆動力学モデルと潜在アクションモデルのアーキテクチャ 出典:論文 Figure3

こうして推定されたアクション系列は、擬似アクション(Pseudo Actions) として扱われ、後続の学習に利用されます。

Step 4: Neural Trajectoriesを用いたポリシーの学習

最後に、Step 2で生成された動画フレーム(観測情報)と、Step 3で推定された擬似アクション(行動ラベル)を組み合わせた合成データセットを構築します。このデータセットを用いて、視覚情報から適切なアクションを予測する 視覚運動ポリシー(visuomotor robot policies) を学習します。

ポリシーの学習は、合成データのみに基づいて行うことも、実世界の少量のテレオペレーションデータと併用して 共同学習(co-training) を行うことも可能です。後者の場合、実データと合成データを1:1の割合でサンプリングし、両者の利点を活かした効率的な学習が実現されます。

実験結果

DreamGenは、その有効性をシミュレーション環境および実世界の実験において実証しました。以下に主な成果を示します。

データ拡張による性能向上

DreamGenが生成する合成データを、少量の実データに追加することで、ロボットポリシーの成功率が一貫して向上することが確認されました。特に、実データが限られている状況では、DreamGenによるデータ拡張が学習性能の向上に顕著な効果をもたらしました。

シミュレーション実験

論文のFigure 4では、RoboCasaシミュレーションベンチマークを用いた実験結果が示されています。実演データの量(Low/Mid/High)と、DreamGenで生成されたNeural Trajectoriesの数を変化させ、学習したポリシーの平均成功率を評価しました。

結果として、Neural Trajectoriesの数が増えるに従い、実データ量に関係なく、ポリシーの成功率は対数線形的に向上する傾向が確認されました。


シミュレーションにおけるNeural Trajectoriesとポリシー性能の関係 出典:論文 Figure4

さらに注目すべき点として、実データを一切用いずにNeural Trajectoriesだけで学習したポリシーが、20.6% という無視できない成功率を達成しており、DreamGenが生成する合成データの質の高さを裏付けています。(詳細は論文 付録Eを参照)

現実世界の実験

実環境においても、同様の傾向が確認されました。GR1、Franka、SO-100の3種類のロボットを用いて、ハンマー打ち、布拭き、折り畳み、積み重ね、M&Msすくいなど、シミュレーションが困難な9つの実タスクにおいて評価を実施しました。

各タスクには10~13軌跡程度の実データを用意し、それに対してDreamGenによる合成データ(実データの数倍~数十倍)を加えて共同学習を行った結果、実データのみで学習したベースラインと比較して一貫して高い成功率が得られました。


実世界ロボットにおけるデータ拡張効果 出典:論文 Figure5

未学習タスク・環境への汎化能力

DreamGenの最も顕著な成果のひとつは、未学習のタスクや環境に対する汎化性能です。

行動の汎化

論文のTable 1では、GR1における行動の汎化に関する実験結果が示されています。学習に「Pick and Place(物体の持ち上げと配置)」タスクのテレオペレーションデータのみを使用し、DreamGenはそこから「電子レンジを開ける」「タンバリンを叩く」「水を注ぐ」「キーボードを打つ」など、全く異なる14種類の行動に対応するNeural Trajectoriesを生成し、それらを用いてポリシーを学習させました。

その結果、これら新規タスクに対して、DreamGenベースのポリシーは 平均43.2% の成功率を達成しました。一方、同じ「物体の持ち上げと配置」データのみを使って学習したベースラインのポリシーは、平均11.2% の成功率にとどまりました。


新しいタスクに対する成功率 出典:論文 Table1

これは、動画世界モデルが持つインターネットスケールの事前知識と、ロボット固有の身体知のファインチューニングとがうまく統合された結果であると考えられます。

環境の汎化

同様に、環境の汎化能力も確認されました。単一の実験室で収集した「物体の持ち上げと配置」データでモデルをファインチューニングした後、10種類の新しい環境における初期フレームを条件としてNeural Trajectoriesを生成し、それをもとにポリシーを学習しました。

その結果、これら新しい環境においても、「物体の持ち上げと配置」系の6種類のタスクバリエーション、さらに「花に水をやる」「スープ容器を閉める」「泡だて器でかき混ぜる」など7種類の未学習行動に対して、DreamGenポリシーは 平均28.5% の成功率を記録しました。一方で、ベースラインのポリシーは全く成功しませんでした(成功率0%)。


新しい環境・タスクに対する成功率 出典:論文 Table1

この成果は、従来のように多数の環境から個別にデータを収集する手法とは異なり、単一環境での学習データからでも汎化可能なポリシーを構築できることを示唆しています。

DreamGen Benchの紹介

DreamGenのもう一つの重要な貢献として、新たに提案されたビデオ生成ベンチマーク 「DreamGen Bench」 があります。このベンチマークは、さまざまな動画世界モデルが、特定のロボットの身体構造や物理法則をどれほど理解し、新しい物体・行動・環境に対して妥当な動画を生成できるかを定量的に評価することを目的としています。

DreamGen Benchでは、主に以下の2つの指標に基づいて生成動画の質を評価します。

  1. Instruction Following (IF): 生成された動画が、与えられた言語指示にどれだけ忠実に従っているか。
  2. Physics Alignment (PA): 生成された動画が、物理的にどれだけもっともらしいか(例:物体が空中で静止しない、ロボットアームが壁を貫通しないなど)。

このベンチマークを用いて、4つの異なる動画世界モデル(Hunyuan, CogVideoX, WAN 2.1, Cosmos)をゼロショットおよびファインチューニングの両設定で比較評価した結果、ファインチューニングによって性能が向上し、モデル間で性能差があることが示されました。


DreamGen Benchの結果 出典:論文 Table2

NVIDIAの世界基盤モデルCosmosが軒並み高スコアですね。Cosmosに関しては以下の記事が参考となるので、興味のある方はご確認ください。

https://zenn.dev/mkj/articles/f24b078409459d

さらに注目すべき点として、DreamGen Benchのスコアと、各モデルが生成したNeural Trajectoriesを用いて学習した下流のロボットポリシーの成功率との間に、明確な正の相関が確認されました。
この結果は、DreamGen Benchが、物理ロボットを実際に動かすことなく、動画世界モデルのロボット学習への有効性を低コストかつ客観的に評価できる指標として機能しうることを示しています。


DreamGen BenchスコアとRoboCasaでのポリシー性能の相関 出典:論文 Figure6

まとめと課題

DreamGenは、動画生成モデルをロボット学習における合成データ生成器として活用する新たなパラダイムを提示し、スケーラブルで汎用性の高いロボット学習の実現に向けて大きな前進を遂げました。

本研究の主な貢献は以下の3点です。

  • スケーラビリティの実現: 少量のテレオペレーションデータから、大量で多様な高品質の学習データを自動生成可能とし、従来のデータ収集の制約を大幅に緩和しました。

  • 汎化性能の飛躍的向上: 未学習の行動や環境に対してもゼロショットまたはフューショットで適応できる能力を実証しました。

  • 評価ベンチマークの提供: 動画世界モデルの有効性を定量評価するための新ベンチマーク「DreamGen Bench」を提案しました。

一方で、動画生成・擬似アクション推定にかかる計算コスト初期フレーム準備の負担、さらに複雑な動作や多様な言語指示への対応は、今後の重要な課題として残されています。

実際にデモを触ってみる

以下は、NVIDIA公式のデモサイトになります。実際にアクセスして、ロボットの動作動画を生成してみました。1動画の生成あたり、約10分程度かかりました。

https://dreamgen-u8q2hhdcu.brevlab.com/
(※ 2025年6月時点の情報です。アクセスできない可能性もあります。)

まずは、あらかじめ用意されていたサンプルの生成結果です。きゅうりを正しく掴み、右側の棚に置く動作が確認できました。


初期フレーム画像


生成結果

次に、同じ初期フレーム画像に対してプロンプトを少し変更してみました。左手で桃は掴めているのですが、棚まで運ぶことはできませんでした。何度か試しましたが、いずれも似たような結果となりました。


生成結果

最後に、少し変わった指示を試してみました。机から物を落とす動作を指定したのですが、きゅうりが完全には落ちず、最終的にはテーブルの形状が崩れてしまいました。


生成結果

プロンプトの書き方に問題があるのかもしれませんが、サンプルのように自然でスムーズな動作は再現できませんでした。ただ、物理現象の再現は比較的うまくできており、惜しいところまでは動作しています。チューニング次第では、十分に実用的な用途にも活用できそうです。

おわりに

本記事では、NVIDIAが発表した論文「DreamGen: Unlocking Generalization in Robot Learning through Video World Models」について解説しました。

人間が手作業でデータを用意するのではなく、AIが生成したデータからロボットが自律的に学習する未来は、そう遠くないのかもしれません。データのスケーリングが進めば、ロボット基盤モデルの性能もさらに向上していきそうですね。

ちなみに、以下のGitHubリポジトリには、ソースコードが公開されています。GR1やDROIDといったデータセットやチュートリアルも含まれているため、十分な計算リソース(恐らく、A100以上)があれば、自分でも動かせそうです。時間があるときに、実際に動かして結果を確認してみようと思います。

https://github.com/nvidia/GR00T-dreams

最後までお読みいただき、ありがとうございました。

Discussion