📌

Genieについてのメモ

に公開

どんなものか

Genie 3 の Capabilities を見ると直感的に理解できると思います。
仮想世界の中をエージェントが動き回ることができます。

Genie

  • パラメータサイズ : 11B。
  • ViT の構造をベースに全コンポーネントで ST-Transformer のアーキテクチャを取り入れることで性能と計算コストのバランスをとった。
  • 学習方法 : 20万時間以上のインターネット上のゲーム動画に対して教師なし学習を適用。
    • アクションやテキストのアノテーションは含まない。

アーキテクチャ


動画用のトークナイザとエージェントの行動をベクトル化するモデルの出力をDynamics model が受け取り、次のフレームを予測する。予測したフレームをまた入力側に入れることでループを回していく。

#記事
#論文

Genie 2

Genie と比較して以下のような改善がなされています。

  • 世界に関する記憶(一度フレームアウトした物体にもう一度視線を向けることで同じ場所に出現させることができる)。
    • 記憶情報には限度があり、最大1分間程度。
  • 1人称、等角投影視点、3人称視点などの視点を生成することができる。
  • 複雑な3次元形状への対応。
  • より豊富なオブジェクトやアクションへの対応。
  • 水や煙などのモデリング。
  • 重力のモデリング。
  • 照明、反射の対応。
  • 現実世界のへの対応。

#記事

Genie 3

Genie 2 と比較して以下のような改善がされています。

  • 動画生成の長時間化。
    • Genie 2 では10〜20秒程度だったのが、数分間の動画生成に対応。
  • アクションへのリアルタイム応答。
    • Genie 2 ではリアルタイムには非対応だった。
  • 複雑な環境や現実世界への対応。
    • Genie 2 と比較して「リアルっぽさ」がかなり改善されている印象。
  • プロンプトでオブジェクトを新たに生成できる。

できないことについても記載がありました。

  • とりうるアクションの範囲。
  • 他のエージェントとの相互作用とシミュレーション。
  • 現実世界の場所の正確な再現。
  • テキストのレンダリング。
  • 生成時間の長さ。
    • 最大で数分間までしか生成することができない。

#記事

Discussion