🙄

論文紹介 : MovieFactory

2024/03/28に公開

概要

MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images を読んだので紹介します。

https://arxiv.org/abs/2306.07257

MovieFactoryは完全に自動化された映画生成モデルです。OpenAIのSoraを調べていたときに出てきた2023の論文です。ユーザーは「津波、山火事、火山を含んだ災害」といった短いテキストを入力としてモデルに与えます。MovieFactoryは入力テキストに対応した複数カットの高解像度動画を出力します。

既存研究の問題点

映画生成のモデルは既に存在しますが、自動化の基準を満たすことができません。この原因として、既存の動画データセットは画質が低く、すかしのようなアーティファクトが含まれている点が考えられます。また、音声と映像の協調モデリングの研究が少ないため、満足のいくコンテンツを生成することができません。最後に現在のモデルはユーザーが提供するテキスト入力を調整する能力に欠けており、特に映画の複数のシーンを生成する際に問題になります。

提案手法

提案手法のMovieFactoryは映画品質(3072x1280)、映画スタイルの複数シーン、マルチモダリティ(音声付)の動画を出力します。

まず複数シーンを自動生成するため、ChatGPTを活用して、簡潔なユーザー入力を映画全体を形成する詳細なスクリプトに拡張します。各スクリプトが異なるシーンに対応することになります。

次にゼロから音声コンテンツを生成するのは難易度が高いため、包括的なデータベースから対応する音声を検索するアプローチをとります。

最後に生成される映像の画質を向上させるために、映像ごとの事前学習と英語の学習からなる2段階の学習戦略を提案します(ここはよくわかってないので省略します)

スクリプト生成

個人的にはこのスクリプト生成の部分が一番参考になりました。

ユーザーは単語一つ以上のシンプルなスクリプトを入力します。提案手法では以下のようなプロンプトを使って、動画生成のためのスクリプトを生成します。

プロンプトの列を書き、AIのための映画生成に利用します
要件1)各プロンプトは約2秒間続く1つのシーンにしか対応していない
要件2)各プロンプトには明確な被験者と詳細な説明がある
要件3)各プロンプトには高品質な生成を導くための「4K」や「高解像度」といったテキストがある
要件4)各シーンの移行は非常に滑らかである
要件5)この映画には他のキャラクターは登場しない。映画は[ユーザー入力]についてのもの

例として「車と飛行機の競争」についてのスクリプトを生成してみます。ChatGPTは10個のシーンを生成します。最初のシーンは「空飛ぶ飛行機が急上昇する連続するクローズアップするショットと沿岸道路を走る車を通して、主人公を紹介するものである」 映画が進むにつれて「車がヘアピン旋回する」「狭い峡谷を飛行機で飛び回る」「車と飛行機が横並びする」などのシーンでハイライトが展開されます。映画は「勝利で振られたチェッカーフラグ」というシーンで締めくくられます。

映像の生成

(ここは長いので省略します)

オーディオ検索

提案手法では2つの音声検索のアプローチを採用します。テキストから音声へのアプローチと、ビデオから音声へのアプローチです。元のスクリプトと生成されたビデオコンテンツから特徴を抽出して、データベースから適切なオーディオクリップと照合します。BGMについてはChatGPTを利用してプロットとトーンを要約し、推奨トーンカテゴリと音楽情報検索(既存研究)の技術を組み合わせて、適切な音楽トラックを特定します。

実装

画像生成のベースモデルとしてStable Diffusion 2.0を採用してます。学習にはWebVid-10MとHD-VG130Mデータセットを利用しています。最後に生成された動画をRealBasicVSRを使って3072x1280の高解像度動画へ変換しています。

生成された動画はYoutubeとBilibiliで見ることができます。生成されたサンプルはすべて研究用で、いかなる商業目的にも利用することはできません。
https://youtu.be/tvDknhMFhzk

Youtubeの動画では生成されたシーンごとのスクリプトと、各シーンを見ることができます。動画の品質はかなり荒いようです。

Discussion