💨
Beyond LLM > 世界モデルのユースケースを知る

2025/10/23に公開
 世界モデルのユースケースを知る
 主要な世界モデル
 1. Google DeepMind - Genie 3https://youtu.be/PDKhUknuQDg?si=m0cVZgfKMm74Zk7Q

開発企業: Google DeepMind

概要:
テキストプロンプトから多様なインタラクティブ環境を生成できる汎用世界モデル
リアルタイムで24FPS、720p解像度で数分間の一貫性を保ちながら動作
リアルタイムインタラクティブ機能を持つ初の汎用世界モデル
フォトリアリスティックから想像上の世界まで幅広く生成可能
プロンプト可能なワールドイベント機能により、生成中の世界をテキストで変更可能
AGI(汎用人工知能)への重要なステップとして位置づけられている


リリース時期: 2025年8月5日発表(限定研究プレビュー)

前身モデル: Genie 1(2024年2月)、Genie 2(2024年)

リポジトリ/詳細:
公式ページ: https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/
現在は学術研究者とクリエイターの限定グループにのみ提供


 2. Meta - V-JEPA 2https://youtu.be/onXM8fRkfiI?si=JOfI8Do1GjhjbcJE

開発企業: Meta AI (Facebook AI Research)

概要:
Video Joint Embedding Predictive Architecture 2の略称
ビデオで訓練された初の世界モデルで、最先端の視覚理解と予測を実現
ゼロショットロボット計画により、未知の環境で未知のオブジェクトと相互作用可能
100万時間以上のビデオと100万枚の画像で事前訓練
62時間のロボットデータで微調整することで、ロボティクスタスクに対応
1.2Bパラメータのモデル
ピックアンドプレースタスクで65-80%の成功率を達成
Nvidia Cosmosモデルの30倍高速と報告されている


リリース時期: 2025年6月11日

リポジトリ/詳細:
公式ブログ: https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/
モデルページ: https://ai.meta.com/vjepa/
オープンソース(商用利用可能)
GitHub: モデルとコードがダウンロード可能


 3. Tencent - HunyuanWorld-Voyagerhttps://youtu.be/nHGCmoEu_-A?si=vB8bWXHyi6ovdohJ

開発企業: Tencent (Hunyuan Team)

概要:
単一画像とユーザー定義のカメラパスから、世界一貫性のある3D点群シーケンスを生成
RGB-D(カラー+深度)ビデオ生成フレームワーク
3D一貫性のあるシーン動画を生成し、カスタムカメラ軌道に従って世界探索が可能
ネイティブ3D再構成機能を持ち、COLMAPなどの追加ツール不要で3D出力が可能
超長距離世界探索をサポート(任意の長さのカメラ軌跡に対応)
Stanford WorldScoreベンチマークで1位を獲得(スコア77.62)
10万本以上のビデオクリップ(実写+Unreal Engineの合成データ)で訓練


リリース時期: 2025年9月2日

リポジトリ/詳細:
プロジェクトページ: https://3d-models.hunyuan.tencent.com/world/
GitHub: https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
Hugging Face: https://huggingface.co/tencent/HunyuanWorld-Voyager
オープンソース(ただし、EU、UK、韓国では使用禁止)
10万人以上の月間アクティブユーザーを持つ商用サービスには別途ライセンスが必要


 4. OpenAI - Sora / Sora 2https://www.youtube.com/live/gzneGhpXwjU?si=rULh2DnXftjGqIDt

開発企業: OpenAI

概要:
テキストから高品質なビデオを生成するテキストコンディショナル拡散モデル
物理世界の一般的なシミュレーターとして機能

Sora(初代): 最大1分の高忠実度ビデオを生成、1080p・20秒まで対応

Sora 2(2025年9月発表):
より物理的に正確で、リアルで制御可能
同期した対話と効果音を生成
複数ショットにわたって世界の状態を正確に維持
オリンピック体操ルーチンなど、極めて難しい動作をモデル化可能
実世界の要素(人物、動物、オブジェクト)を任意のSora生成環境に注入可能

3D一貫性、長距離コヒーレンス、オブジェクトの永続性などの創発的能力を示す
Minecraftのようなゲームをシミュレート可能


リリース時期:
Sora: 2024年2月発表、2024年12月9日から一般公開開始
Sora 2: 2025年9月30日発表


利用方法:
sora.com でChatGPT PlusおよびProユーザーが利用可能
iOSアプリも提供


リポジトリ/詳細:
公式ページ: https://openai.com/sora/
Sora 2発表: https://openai.com/index/sora-2/
技術レポート: https://openai.com/index/video-generation-models-as-world-simulators/
システムカード: https://openai.com/index/sora-system-card/


 5. NVIDIA - Cosmos World Foundation Modelshttps://youtu.be/9Uch931cDx8?si=xT7ihEyuF-PX2Kpd

開発企業: NVIDIA

概要:
物理AIのためのプラットフォームで、最先端の生成的世界基盤モデル(WFM)を特徴とする
自律走行車(AV)とロボット向けに設計
テキスト、画像、ビデオ、ロボットセンサーデータから物理ベースのビデオを生成

モデルファミリー:

Nano: リアルタイム、低遅延推論とエッジデプロイメント用に最適化

Super: 高性能ベースラインモデル

Ultra: 最高品質と忠実度、カスタムモデルの蒸留に最適

拡散モデルと自己回帰モデルの両方を含む
200億時間の実世界の人間の相互作用、環境、産業、ロボティクス、運転データから9000兆トークンで訓練
NVIDIA Omniverseの3D出力と組み合わせることで、制御可能で高品質な合成ビデオデータを生成

最新リリース: Cosmos Predict-2、Cosmos Transfer-2、Cosmos Reason(70億パラメータの視覚言語モデル)


リリース時期: 2025年1月(CES 2025で発表)

リポジトリ/詳細:
公式ページ: https://www.nvidia.com/en-us/ai/cosmos/
開発者ページ: https://developer.nvidia.com/cosmos
Hugging Face: https://huggingface.co/blog/mingyuliutw/nvidia-cosmos
GitHub: 推論とファインチューニングスクリプト提供
オープンモデルライセンス(NVIDIA Open Model License)


 6. Midjourney (開発中)https://www.youtube.com/live/BRATRv8HDdc?si=goZroRI2V5oiXZa3

開発企業: Midjourney, Inc.

現状:
画像生成AIとして有名だが、世界モデルは現在開発中
創業者David Holtzは3D、ビデオ、リアルタイム生成機能を統合した「世界シミュレーション」の構築を目指していると表明
「オープンワールドサンドボックス」のビジョン - 人々がビデオゲームを作ったり、映画を撮影したりできる環境
バージョン7の画像モデルを訓練中
3D生成機能はビデオ機能より先に到着する可能性があると言及
NeRF(Neural Radiance Fields)技術をベースにした3Dモデルを開発中

ビデオモデル: 2025年6月18日にV1ビデオモデルを発表
Image-to-Videoワークフロー
自動および手動アニメーション設定
5秒のビデオを4つ生成



リリース予定: 未定(開発中)

詳細:
公式サイト: https://www.midjourney.com/
ビデオモデル発表: https://updates.midjourney.com/introducing-our-v1-video-model/
注: 正式な世界モデル製品はまだリリースされていない


 その他の注目世界モデル
 7. World Labshttps://youtu.be/Zn41RWfTGBE?si=ysIct0t1Bka9f9yd

開発企業: World Labs(Fei-Fei Li創業)

概要:
AI pioneer Fei-Fei Li(ImageNet創設者、スタンフォード大学教授)が2024年に設立
大規模世界モデル(Large World Models - LWM)を開発し、3D世界の認識、生成、相互作用を可能にする
「空間知能(Spatial Intelligence)」をAIに与えることに焦点
単一画像からインタラクティブな3D環境を生成可能
ゲームのようなシーンをブラウザ内で探索・修正可能
生成されたシーンは物理法則に従い、堅実性と深度の感覚を持つ
ゲーム会社、映画スタジオ、建築家、デザイナーなどのプロフェッショナル向け


資金調達: 2.3億ドル(評価額10億ドル超)
投資家: Andreessen Horowitz(a16z)、Intel Capital、AMD Ventures、Marc Benioff、Eric Schmidt他


リリース予定: 2025年に最初の製品をリリース予定

詳細:
公式サイト: https://www.worldlabs.ai/
デモサイト: 単一画像から3Dシーンを生成するデモが公開中


 8. Decart - Oasishttps://youtu.be/bkZvL4wBiKw?si=6zmkLAXnBJnyWz5N

開発企業: Decart(イスラエルのAI企業)

概要:
世界初のプレイ可能な「オープンワールド」AIモデルと主張
Minecraftのゲームプレイビデオで訓練され、リアルタイムでMinecraft風のゲームを生成
キーボードとマウスの入力を受け取り、物理、ルール、グラフィックスをリアルタイムでシミュレート
20FPS、360p解像度で動作(Nvidia H100 GPU使用)
フレームごとに自己回帰的に生成

Oasis 2.0: Minecraftのリアルタイムモッド版
プレイ中に世界をリアルタイムで変換(ベネチア、インド、ニューヨーク、中世など)
ビデオtoビデオモデル「MirageLSD」を使用


制限事項:
低解像度
オブジェクトの永続性の問題(レベルレイアウトをすぐに「忘れる」)
プレイヤーが振り返ると景観が再配置される

将来的には4Kゲームプレイ生成を目指す(Etchedの専用AIチップ「Sohu」で)
100万人以上のユーザーを獲得(最初の100万人には3日強で到達)


資金調達:
2024年: 2100万ドル(Sequoia、Oren Zeevから)
2025年8月: 1億ドル(評価額31億ドル)


リリース時期: 2024年10月31日

詳細:
公式サイト: https://decart.ai/
Oasisプロジェクト: https://oasis-model.github.io/
Oasis 2.0: https://oasis2.decart.ai/
オープンソース: モデルアーキテクチャ、ウェイト、研究論文が公開


 9. Google DeepMind - Genie 1 & Genie 2https://youtu.be/PDKhUknuQDg?si=YBmASR4MtKVMLmW6

開発企業: Google DeepMind

概要:

Genie 1(2024年2月):
テキスト、画像、写真、スケッチから仮想環境を生成
ユーザーはシーン内でアクションを制御可能


Genie 2(2024年):
詳細でインタラクティブな3D世界を生成
ジャンプ、泳ぐ、オブジェクトの移動などのアクションにリアルに反応
オブジェクトの相互作用やキャラクターの動きがリアルに表現される
10〜20秒のインタラクティブ環境を生成可能



リリース時期: Genie 1(2024年2月)、Genie 2(2024年)

詳細: Genie 3の前身モデル。Genie 3の公式ページで言及されている

 10. Google DeepMind - Veo 2 & Veo 3https://youtu.be/ZFh6gVarloc?si=Q_mQ2gPe9gN1OwEB

開発企業: Google DeepMind

概要:

Veo 2:
高度なビデオ生成モデル
直感的な物理の深い理解を示す


Veo 3:
4K出力
より強力な物理シミュレーション
ネイティブオーディオ生成
Geminiを通じて利用可能

ハードコードされた物理エンジンを使用


詳細: Genie 3の技術的基盤の一部として言及されている

 今後の展望と書籍のご紹介フィジカルAIと世界モデルの発展により、AIは単なる情報処理システムから、物理世界を理解し、相互作用できる存在へと進化しつつあります。

この技術の進展は、ロボティクス、自動運転、製造業、さらにはエンターテインメント分野まで、幅広い産業に革新をもたらす可能性を秘めています。

この記事では、世界モデルを紹介する書籍の一部をご紹介しました。

これまでに書いた記事は本としてまとめておりますので、ぜひ下記のリンクからお読みください。 （すべての情報は無料で公開されています）

皆様の新しい発見へのお手伝いができれば、幸いです。
Beyond LLM：世界モデルが切り拓くフィジカルAIの時代

https://zenn.dev/oggata/books/69bd97b5d0ede1