💨

Beyond LLM > 世界モデルのユースケースを知る

に公開

世界モデルのユースケースを知る

主要な世界モデル

1. Google DeepMind - Genie 3

https://youtu.be/PDKhUknuQDg?si=m0cVZgfKMm74Zk7Q

  • 開発企業: Google DeepMind
  • 概要:
    • テキストプロンプトから多様なインタラクティブ環境を生成できる汎用世界モデル
    • リアルタイムで24FPS、720p解像度で数分間の一貫性を保ちながら動作
    • リアルタイムインタラクティブ機能を持つ初の汎用世界モデル
    • フォトリアリスティックから想像上の世界まで幅広く生成可能
    • プロンプト可能なワールドイベント機能により、生成中の世界をテキストで変更可能
    • AGI(汎用人工知能)への重要なステップとして位置づけられている
  • リリース時期: 2025年8月5日発表(限定研究プレビュー)
  • 前身モデル: Genie 1(2024年2月)、Genie 2(2024年)
  • リポジトリ/詳細:

2. Meta - V-JEPA 2

https://youtu.be/onXM8fRkfiI?si=JOfI8Do1GjhjbcJE

  • 開発企業: Meta AI (Facebook AI Research)
  • 概要:
    • Video Joint Embedding Predictive Architecture 2の略称
    • ビデオで訓練された初の世界モデルで、最先端の視覚理解と予測を実現
    • ゼロショットロボット計画により、未知の環境で未知のオブジェクトと相互作用可能
    • 100万時間以上のビデオと100万枚の画像で事前訓練
    • 62時間のロボットデータで微調整することで、ロボティクスタスクに対応
    • 1.2Bパラメータのモデル
    • ピックアンドプレースタスクで65-80%の成功率を達成
    • Nvidia Cosmosモデルの30倍高速と報告されている
  • リリース時期: 2025年6月11日
  • リポジトリ/詳細:

3. Tencent - HunyuanWorld-Voyager

https://youtu.be/nHGCmoEu_-A?si=vB8bWXHyi6ovdohJ

  • 開発企業: Tencent (Hunyuan Team)
  • 概要:
    • 単一画像とユーザー定義のカメラパスから、世界一貫性のある3D点群シーケンスを生成
    • RGB-D(カラー+深度)ビデオ生成フレームワーク
    • 3D一貫性のあるシーン動画を生成し、カスタムカメラ軌道に従って世界探索が可能
    • ネイティブ3D再構成機能を持ち、COLMAPなどの追加ツール不要で3D出力が可能
    • 超長距離世界探索をサポート(任意の長さのカメラ軌跡に対応)
    • Stanford WorldScoreベンチマークで1位を獲得(スコア77.62)
    • 10万本以上のビデオクリップ(実写+Unreal Engineの合成データ)で訓練
  • リリース時期: 2025年9月2日
  • リポジトリ/詳細:

4. OpenAI - Sora / Sora 2

https://www.youtube.com/live/gzneGhpXwjU?si=rULh2DnXftjGqIDt

  • 開発企業: OpenAI
  • 概要:
    • テキストから高品質なビデオを生成するテキストコンディショナル拡散モデル
    • 物理世界の一般的なシミュレーターとして機能
    • Sora(初代): 最大1分の高忠実度ビデオを生成、1080p・20秒まで対応
    • Sora 2(2025年9月発表):
      • より物理的に正確で、リアルで制御可能
      • 同期した対話と効果音を生成
      • 複数ショットにわたって世界の状態を正確に維持
      • オリンピック体操ルーチンなど、極めて難しい動作をモデル化可能
      • 実世界の要素(人物、動物、オブジェクト)を任意のSora生成環境に注入可能
    • 3D一貫性、長距離コヒーレンス、オブジェクトの永続性などの創発的能力を示す
    • Minecraftのようなゲームをシミュレート可能
  • リリース時期:
    • Sora: 2024年2月発表、2024年12月9日から一般公開開始
    • Sora 2: 2025年9月30日発表
  • 利用方法:
    • sora.com でChatGPT PlusおよびProユーザーが利用可能
    • iOSアプリも提供
  • リポジトリ/詳細:

5. NVIDIA - Cosmos World Foundation Models

https://youtu.be/9Uch931cDx8?si=xT7ihEyuF-PX2Kpd

  • 開発企業: NVIDIA
  • 概要:
    • 物理AIのためのプラットフォームで、最先端の生成的世界基盤モデル(WFM)を特徴とする
    • 自律走行車(AV)とロボット向けに設計
    • テキスト、画像、ビデオ、ロボットセンサーデータから物理ベースのビデオを生成
    • モデルファミリー:
      • Nano: リアルタイム、低遅延推論とエッジデプロイメント用に最適化
      • Super: 高性能ベースラインモデル
      • Ultra: 最高品質と忠実度、カスタムモデルの蒸留に最適
    • 拡散モデルと自己回帰モデルの両方を含む
    • 200億時間の実世界の人間の相互作用、環境、産業、ロボティクス、運転データから9000兆トークンで訓練
    • NVIDIA Omniverseの3D出力と組み合わせることで、制御可能で高品質な合成ビデオデータを生成
    • 最新リリース: Cosmos Predict-2、Cosmos Transfer-2、Cosmos Reason(70億パラメータの視覚言語モデル)
  • リリース時期: 2025年1月(CES 2025で発表)
  • リポジトリ/詳細:

6. Midjourney (開発中)

https://www.youtube.com/live/BRATRv8HDdc?si=goZroRI2V5oiXZa3

  • 開発企業: Midjourney, Inc.
  • 現状:
    • 画像生成AIとして有名だが、世界モデルは現在開発中
    • 創業者David Holtzは3D、ビデオ、リアルタイム生成機能を統合した「世界シミュレーション」の構築を目指していると表明
    • 「オープンワールドサンドボックス」のビジョン - 人々がビデオゲームを作ったり、映画を撮影したりできる環境
    • バージョン7の画像モデルを訓練中
    • 3D生成機能はビデオ機能より先に到着する可能性があると言及
    • NeRF(Neural Radiance Fields)技術をベースにした3Dモデルを開発中
    • ビデオモデル: 2025年6月18日にV1ビデオモデルを発表
      • Image-to-Videoワークフロー
      • 自動および手動アニメーション設定
      • 5秒のビデオを4つ生成
  • リリース予定: 未定(開発中)
  • 詳細:

その他の注目世界モデル

7. World Labs

https://youtu.be/Zn41RWfTGBE?si=ysIct0t1Bka9f9yd

  • 開発企業: World Labs(Fei-Fei Li創業)
  • 概要:
    • AI pioneer Fei-Fei Li(ImageNet創設者、スタンフォード大学教授)が2024年に設立
    • 大規模世界モデル(Large World Models - LWM)を開発し、3D世界の認識、生成、相互作用を可能にする
    • 「空間知能(Spatial Intelligence)」をAIに与えることに焦点
    • 単一画像からインタラクティブな3D環境を生成可能
    • ゲームのようなシーンをブラウザ内で探索・修正可能
    • 生成されたシーンは物理法則に従い、堅実性と深度の感覚を持つ
    • ゲーム会社、映画スタジオ、建築家、デザイナーなどのプロフェッショナル向け
  • 資金調達: 2.3億ドル(評価額10億ドル超)
    • 投資家: Andreessen Horowitz(a16z)、Intel Capital、AMD Ventures、Marc Benioff、Eric Schmidt他
  • リリース予定: 2025年に最初の製品をリリース予定
  • 詳細:

8. Decart - Oasis

https://youtu.be/bkZvL4wBiKw?si=6zmkLAXnBJnyWz5N

  • 開発企業: Decart(イスラエルのAI企業)
  • 概要:
    • 世界初のプレイ可能な「オープンワールド」AIモデルと主張
    • Minecraftのゲームプレイビデオで訓練され、リアルタイムでMinecraft風のゲームを生成
    • キーボードとマウスの入力を受け取り、物理、ルール、グラフィックスをリアルタイムでシミュレート
    • 20FPS、360p解像度で動作(Nvidia H100 GPU使用)
    • フレームごとに自己回帰的に生成
    • Oasis 2.0: Minecraftのリアルタイムモッド版
      • プレイ中に世界をリアルタイムで変換(ベネチア、インド、ニューヨーク、中世など)
      • ビデオtoビデオモデル「MirageLSD」を使用
    • 制限事項:
      • 低解像度
      • オブジェクトの永続性の問題(レベルレイアウトをすぐに「忘れる」)
      • プレイヤーが振り返ると景観が再配置される
    • 将来的には4Kゲームプレイ生成を目指す(Etchedの専用AIチップ「Sohu」で)
    • 100万人以上のユーザーを獲得(最初の100万人には3日強で到達)
  • 資金調達:
    • 2024年: 2100万ドル(Sequoia、Oren Zeevから)
    • 2025年8月: 1億ドル(評価額31億ドル)
  • リリース時期: 2024年10月31日
  • 詳細:

9. Google DeepMind - Genie 1 & Genie 2

https://youtu.be/PDKhUknuQDg?si=YBmASR4MtKVMLmW6

  • 開発企業: Google DeepMind
  • 概要:
    • Genie 1(2024年2月):
      • テキスト、画像、写真、スケッチから仮想環境を生成
      • ユーザーはシーン内でアクションを制御可能
    • Genie 2(2024年):
      • 詳細でインタラクティブな3D世界を生成
      • ジャンプ、泳ぐ、オブジェクトの移動などのアクションにリアルに反応
      • オブジェクトの相互作用やキャラクターの動きがリアルに表現される
      • 10〜20秒のインタラクティブ環境を生成可能
  • リリース時期: Genie 1(2024年2月)、Genie 2(2024年)
  • 詳細: Genie 3の前身モデル。Genie 3の公式ページで言及されている

10. Google DeepMind - Veo 2 & Veo 3

https://youtu.be/ZFh6gVarloc?si=Q_mQ2gPe9gN1OwEB

  • 開発企業: Google DeepMind
  • 概要:
    • Veo 2:
      • 高度なビデオ生成モデル
      • 直感的な物理の深い理解を示す
    • Veo 3:
      • 4K出力
      • より強力な物理シミュレーション
      • ネイティブオーディオ生成
      • Geminiを通じて利用可能
    • ハードコードされた物理エンジンを使用
  • 詳細: Genie 3の技術的基盤の一部として言及されている

今後の展望と書籍のご紹介

フィジカルAIと世界モデルの発展により、AIは単なる情報処理システムから、物理世界を理解し、相互作用できる存在へと進化しつつあります。
この技術の進展は、ロボティクス、自動運転、製造業、さらにはエンターテインメント分野まで、幅広い産業に革新をもたらす可能性を秘めています。
この記事では、世界モデルを紹介する書籍の一部をご紹介しました。
これまでに書いた記事は本としてまとめておりますので、ぜひ下記のリンクからお読みください。 (すべての情報は無料で公開されています)
皆様の新しい発見へのお手伝いができれば、幸いです。

Beyond LLM:世界モデルが切り拓くフィジカルAIの時代
https://zenn.dev/oggata/books/69bd97b5d0ede1

Discussion