論文紹介 - 世界基盤モデルCosmos
はじめに
はじめまして。株式会社 松尾研究所インターンのHashです。LLMや世界モデルの研究開発に興味があり、その知見や技術を応用する形でAI技術の社会実装に取り組んでいます。
今回のテックブログでは、NVIDIAが2025年1月にCESで発表・公開した世界基盤モデル(World Foundation Model)「Cosmos」をご紹介します。
先日、東京大学松尾・岩澤研究室が主催するDeepLearningの最新論文をキャッチアップする勉強会「DL輪読会」で発表されていたスライドも大変参考になりましたので、以下のリンクからあわせてご覧いただければ幸いです。
Cosmosとは
Cosmosは、ロボットや自動運転AIなど「物理AI (Physical AI)」向けの世界基盤モデルです。物理AIを開発する際、現実での検証はどうしてもコスト・リスクが大きいため、仮想空間で世界モデルとポリシーモデルをトレーニングするアプローチが注目されています。NVIDIAのCosmosは、この「世界モデル」部分を大規模事前学習により「汎用基盤」として提供している点が特徴です。
- 物理世界のパターン・法則(重力・運動など)を学習
- テキストや画像・動画など多様な入力から、一貫性のある動画を生成
- オープンソースかつモデル重みも公開され、各用途へカスタマイズしての利用を想定
また、システムの一部として、安全な利用を目的として開発されたガードレール(Guardrail)機能もあります。入力データ(pre-guard) 及び出力データ(post-guard)それぞれで有害な指示や倫理的に問題のあるコンテンツを遮断が可能となっています。
従来の課題
ロボットや自動運転では、大量の実世界データ収集や、ハードウェアを使った試行錯誤が不可欠で、そのコスト・リスクが高いことが課題でした。Cosmosは、2,000万時間分の映像データから抽出した約1億本の短い動画クリップ(2〜60秒)を用いて学習させた大規模モデルです。学習には、1万枚ものH100 GPUが3ヶ月間にわたって投入されました。事後学習などの手法でカスタマイズにより、多視点の動画生成やロボット制御などへの応用が期待されます。
記事の構成
- (1) Cosmosのモデルの詳細 : モデル構造や技術的特徴
- (2) Cosmosの応用事例 : ロボティクス、自動運転、カメラ視点操作など実際の応用分野
- (3) 推論サンプル : Diffusion Video2WorldとText2Worldモデルの生成例
- (4) まとめと今後の展望 : 世界基盤モデルとしてのCosmosの可能性と課題
Cosmosモデルの詳細
Cosmosでは、大きく分けて2つの系列のモデル族が公開されています。
-
Diffusionモデル
- 動画を潜在表現へエンコードし、ノイズ除去を段階的に行いながら最終的に動画を生成するフレームワーク
- 動画の3次元構造(RGB軸+時間軸)のパッチ化やRoPE(Rotary Position Embedding)を活用し、長い動画でも空間・時間整合性の高い生成が可能
- 高解像度の映像生成が可能
-
Autoregressiveモデル
- 動画をまず離散トークンに変換し、過去トークン(過去フレーム)やテキスト条件から順番に次のフレームを生成していく
- 3次元の位置情報埋め込みやクロスアテンションによるテキスト条件付けなどを行い、映像の時系列生成を行う
- 推論時の反復が多くなるものの、一度「トークン」化してしまえば汎用性が高い、LLMに近い構造として活用できる
公開されたモデル
モデルタイプ | 入出力タイプ | パラメータ規模 |
---|---|---|
Diffusion | Text2World | 7B / 14B |
Diffusion | Video2World | 7B / 14B |
Autoregressive | - | 4B / 12B |
Autoregressive | Video2World | 5B / 13B |
Diffusionモデルの仕組み
- 動画を潜在ベクトル(Cosmos TokenizerのCV8x8x8など)にエンコード
- そこに段階的にガウスノイズを加え、ノイズ除去しながら最終的に復元→動画生成
- 3Dパッチ化により、(時間×高さ×幅)を一定単位でまとめて計算効率を確保
- RoPEを活用して、フレームレートや解像度を変更しても整合性をある程度維持
学習時は画像データや動画データを交互に使い、大量かつ多様なデータを効果的に学習しています。
Autoregressiveモデルの仕組み
-
動画を離散トークン化
- 例えば、8×16×16の圧縮率でCVAE/VQ-VAEのように動画をトークンへ変換
-
次フレーム予測タスク
- 過去フレームトークン列 → 次フレームトークンを一つずつ推定し、順に生成
-
テキスト条件
- T5などでエンコードした文字情報をクロスアテンションで条件付けを行うことで、テキストプロンプトに従った動画の生成が可能
さらに、自動車のシーンなど長尺動画を生成する際はMedusaなどの“投機的デコード(speculative decoding)”を取り入れ、推論高速化を実現しています。
Cosmosの応用事例
ロボティクス
Cosmosはロボットアームによる物体操作の動画を豊富に含んでおり、特定ロボットの視点映像などを一部学習データに差し替えて事後学習することで、現実での動きをシミュレートできるようになります。
自動運転
自動車の前方カメラ映像や標識、歩行者など多様な要素を学習させることで、自動運転AIの事前検証にも利用可能です。Hugging Face上で公開された自動運転向けの事後学習用データセットが存在しているため、これらの利活用が考えられます。
カメラ視点操作の3D可視化
カメラの視点移動を入力すると、その視点に応じて自然に変化する映像を生成できる例も論文で紹介されています。たとえば室内での内見ツアーのようなVRシミュレーションをうまく工夫することで合成が可能になると期待できます。
推論サンプル
Diffusion Video2World(14B)モデル
以下のように1枚または9枚の入力フレームとテキストプロンプトを与えると、長さ20〜30フレームの動画が生成されます。
左
The video depicts a winding mountain road covered in snow, with a single vehicle traveling along it. The road is flanked by steep, rocky cliffs and sparse vegetation. The landscape is characterized by rugged terrain and a river visible in the distance. The scene captures the solitude and beauty of a winter drive through a mountainous region.
右
A lone vehicle navigates a steep, snow-draped mountain pass, its headlights cutting through the crisp winter air. Towering cliffs and a distant river frame the winding path, evoking both the challenges and rewards of alpine exploration.
下記の2枚の動画は、同じフレームを条件として入力し、上記の異なるテキストプロンプトを入れた場合の生成例です。
Diffusion Text2World(14B)モデル
まずは公式の例に模して作った一般的プロンプトで試してみました:
プロンプト
In a sleek, modern control room, a large, central command console commands attention, its expansive surface adorned with a holographic interface that glows softly in the ambient light. A humanoid robot operator, its metallic frame gleaming under the overhead lights, sits poised before the console, fingers deftly manipulating the holographic controls with precision. The console's array of screens, displaying live feeds from bustling production lines, pulses with activity, showcasing the intricate dance of machinery and human oversight. Behind the operator, a wall of monitor banks hums with real-time data, each screen a testament to the meticulous management of the manufacturing process. The camera remains static, capturing the dynamic interplay of technology and human interaction, while the neutral lighting enhances the sterile, efficient atmosphere, embodying the essence of modern industrial control.
プロンプト
In a state-of-the-art robotics testing facility, a row of sleek, metallic robots stands at attention on a polished stainless-steel platform, their glowing power indicators pulsating with life. Each robot, meticulously crafted with precision-engineered joints and a striking black and silver color scheme, exudes an aura of technological prowess. The scene is bathed in a dramatic interplay of bright, focused spotlights that accentuate the robots' intricate details, while soft, ambient lighting envelops the minimalistic space, enhancing the atmosphere of innovation. Technicians clad in protective gear, including face masks and gloves, diligently inspect each robot, wielding handheld diagnostic tools that emit a soft glow as they scan the mechanical marvels. The camera remains static, capturing the meticulous process of quality control, as the robots' glowing indicators flicker rhythmically, symbolizing their readiness for deployment in the world of advanced automation.
特に問題なく生成できました。
続いて他の例を検証した結果、特に日本語入力に関する複数の課題が明らかになりました。
知識量とGuardrailの制約
CosmosのGuardrail機能は非常に厳格であり、「Iron Man」などの作品名、「Tony」などの人名、あるいは「pierce」のような安全リスクを含むと判断される単語を検出した場合、ほぼ例外なく生成プロセスを中断します。
公式の推論スクリプトにGuardrailをオフにする機能がないため、ソースコードを編集してGuardrailを無効化しました。英語圏において一般的なカルチャー要素を含む英語プロンプトで推論を試してみた結果、プロンプトの作品は理解できると見受けられます。
プロンプト
A weathered Mandalorian bounty hunter stands motionless at the entrance of a dimly lit cantina on the desert planet Tatooine. The character's beskar armor, dented and scratched from countless battles, catches the light from the twin suns setting through the doorway, highlighting its distinctive silver-blue sheen. Small jets of steam occasionally escape from vents in the figure's jetpack. Inside the cantina, a diverse collection of alien species huddle around circular tables, their conversations creating a low ambient hum beneath the exotic melody played by a blue-skinned band in the corner. Dust particles dance in the slanted rays of golden light that cut through the otherwise shadowy interior. The camera slowly pushes in from behind the Mandalorian, revealing more of the cantina's interior as the depth of field gradually shifts to bring the colorful alien patrons into focus while the armored figure remains as a silhouetted frame in the foreground.
生成された動画
英語で日本の作品をプロンプトに入れてみたら、どうやら作品の知識はないようです。
プロンプト
In a bustling urban landscape, a mesmerizing blue light envelops the scene as Doraemon's iconic Anywhere Door materializes in the middle of a busy road, its ethereal glow contrasting sharply with the concrete surroundings. The door swings open dramatically, revealing a flurry of activity as Nobita, Giant, and Suneo emerge, their expressions a mix of surprise and panic. Clad in vibrant attire—Nobita in a red shirt and blue shorts, Giant in a striking green and yellow outfit, and Suneo in a bold red and white ensemble—the trio dashes in different directions, their movements captured in dynamic slow motion. The camera, anchored in a static position, pans slightly to follow their chaotic escape, as the door's light fades, leaving behind a sense of urgency. Suddenly, Doraemon himself bursts onto the scene, his blue and white robotic form soaring through the air on his Take-copter, deftly navigating the road while testing the obstacle avoidance capabilities of self-driving cars. The atmosphere is charged with excitement and adventure, as the characters' expressions and actions weave a narrative of chaos and camaraderie, all set against the backdrop of a bustling city.
生成された動画
日本語の理解
日本語の理解力を試した結果、モデルは日本語入力に対して関連性の低い動画を出力する傾向があることがわかりました。また、Guardrailは「ナイフ」のような実際に危険性のある入力を阻止しますが、興味深いことに英語表記の「Doraemon」を含む入力は拒否する一方で、日本語表記の「ドラえもん」は許可します。さらに、Cosmosには入力プロンプトを改善するためのupsamplerが実装されていますが、このupsamplerは日本語入力の場合、出力が不安定になることを観測しました。
プロンプト
ドラえもんのどこでもドアが突然道路中央に現れ、青い光を放ちながらドアが開き、のび太、ジャイアン、スネ夫が一斉に飛び出してくる。彼らはパニックになって異なる方向に走り、道路を横切る。その後、ドラえもん自身が追いかけて来て、タケコプターを使って空中に浮かぶ状況での自動運転車の障害物回避能力をテスト
upsamplerの出力
短いキャプション: ドラえもんのどこでもドアが突然道路中央に現れ、青い光を放ちながらドアが開き、のび太、ジャイアン、スネ夫が一斉に飛び出してくる。彼らはパニックになって異なる方向に走り、道路を横切る。その後、ドラえもん自身が追いかけて来て、タケコプターを使って空中に浮かぶ状況での自動運転車の障害物回避能力をテスト。 1. このアニメーションでは、ドラえもんのどこでもドアが突然現れ、青い光を放ち、のび太、ジャイアン、スネ夫が一斉に飛び出してくる。彼らはパニックになり、異なる方向に走り、道路を横切る。このシーンは、キャラクターの動きと表情の変化を通して、混乱と緊張感を醸し出す。 2. ドラえもんがタケコプターを使って空中に浮かび、自動運転車の障害物回避能力をテストする。このシーンでは、ドラえもんの表情と動きが、キャラクターの技術と知識を強調する。また、自動運転車の動きとドラえもんの対応が、物語の緊張感を高める。 3. このアニメーションは、ドラえもんの冒険と技術を通して、現代の技術と子供の冒険を結びつける。キャラクターの表情と動きは、物語のユーモアとドラマを強調し、視聴者を引き付ける。また、鮮やかな色彩と鮮明なアニメーションは、視覚的な楽しさを提供する。 全体として、このアニメーションは、ドラえもんの冒険と技術を通して、現代の技術と子供の冒険を結びつけ、視聴者を引き付けるユーモアとドラマを提供する。
upsampleされたプロンプトは若干不自然なところがあり、生成された動画もプロンプトとほぼ関連性ありませんでした。
生成された動画
前述の一般的な例の日本語訳を入力にしたら、upsamplerがそれを英語に変換しました。生成された動画は英語入力と同等と考えられます。
プロンプト
練された近代的な制御室では、大きな中央指令コンソールが注目を集め、その広い表面には周囲の光の中で柔らかく輝くホログラフィックインターフェースが飾られている。金属製のフレームが頭上の照明の下で輝く人型ロボットのオペレーターが、コンソールの前に構え、指先で精密にホログラフィックコントロールを操作している。コンソールのスクリーン群には活気ある生産ラインからのライブ映像が表示され、機械と人間の監視による複雑な連携を映し出している。オペレーターの後ろには、モニター群の壁がリアルタイムデータとともに稼働し、各画面は製造プロセスの緻密な管理を示す証となっている。カメラは静止したまま、技術と人間の相互作用のダイナミックな絡み合いを捉え、中性的な照明が無菌で効率的な雰囲気を引き立て、現代の産業管理の本質を体現している。
upsamplerの出力
In a sleek, modern control room, a large central command console commands attention, its expansive surface adorned with softly glowing holographic interfaces that shimmer in the ambient light. The console's metallic frame glistens under overhead lighting, while a humanoid robot operator stands poised before it, deftly manipulating holographic controls with precise finger movements. Surrounding screens display dynamic live footage of bustling production lines, showcasing the intricate interplay of machinery and human oversight. Behind the operator, a wall of monitors pulses with real-time data, each screen revealing the meticulous management of manufacturing processes. The camera remains static, capturing the dynamic interplay of technology and human interaction, while neutral lighting enhances the sterile, efficient atmosphere. This cinematic tableau embodies the essence of modern industrial management, where advanced technology and human expertise converge in a seamless dance of precision and control.
出力された動画
最後に、upsamplerをオフにして上の日本語プロンプトで推論してみました。日本語の理解力がないと見受けられます。
推論結果まとめ
この検証から、現状のCosmosモデルは日本語コンテンツ生成において著しい制約があることが分かります。モデルの多言語対応の改善が今後の課題の一つとなるでしょう。
一方で生成結果を見ると、崩れはあるものの、物体の動きをシミュレーションするという点ではそれなりの精度を発揮しています。オープンな世界基盤モデルとしての利用価値が期待できると思います。
推論時間については、公式データによると、H100 GPUを使用した場合、14B Text2Worldと14B Video2Worldの両Diffusionモデルとも約10分の処理時間を要します。Guardrailとupsamplerの処理も入れるとさらに時間がかかります。実用化に向けては、この推論速度の大幅な改善が重要な課題となるでしょう。
まとめと今後の展望
以上でNVIDIAの世界基盤モデルCosmosを紹介しました。莫大な計算リソースとデータセットを投入して基盤モデルを作り上げた点が特に印象的です。自動運転などの分野では、データセット作成および実証実験に大変なコストがかかります。Cosmosを活用し、特にこれを事後学習などでカスタマイズしたモデルにより、高精度のシミュレーションが実現できれば、こういった開発コストの大幅な削減に貢献できるでしょう。
しかし、モデルの規模が大きいため、推論に時間がかかることが実応用への課題の一つとなっています。今後、LLMのように高速推論フレームワークが開発され、推論時間が削減されれば、その実用化もさらに加速されるでしょう。
推論結果からは、英語入力に対しては比較的高品質な動画生成が可能である一方、日本語理解には大きな課題があることが明らかになりました。特に興味深いのは、日本語入力をupsamplerが英語に変換した場合に良好な結果が得られる点で、このことは多言語処理のパイプライン改善の必要性を示唆しています。
また、Cosmosには安全性向上を図るガードレールシステムが備わっていますが、自動運転などのクリティカルな分野での応用が予想される以上、安全性の保証もまた重要な課題の一つとなります。
今後、こういった世界基盤モデル技術の発展と応用拡大に期待したいと思います。
Discussion