Odyssey-2にみるリアルタイム動画生成AIの可能性
はじめに
2025年現在,動画生成AIは目覚ましい進化を遂げています.OpenAIのSora2(2025年9月),GoogleのVeo 3.1(2025年10月)とった大型アップデートが相次ぎ,テキストや画像から高品質な映像を生み出す技術は急速に成熟しています.
これらのモデルの性能を横断的に評価するリーダーボードとしてArtificial Analysisがよく利用されます.2025年10月30日時点ではKuaishou Kling 2.5 Turboが首位に立ち,Google・Baidu・ByteDanceなどがで続いています.
動画生成AIの品質競争は激しさを増していますが,現在のモデルでは数秒の動画を生成するのに数分を要するのが実情です.作品制作という観点ではその待ち時間も許容されるかもしれませんが,動画生成AIが真に社会に浸透するための鍵となる技術は,リアルタイム性にあると考えています.なぜなら,リアルタイムに動画を生成できるようになれば,私たちが暮らしの中で目にしている環境そのものに介入して,世界の見え方を根本から変える可能性があると考えるからです.
こうした背景のもと,2025年10月28日にOdyssey-2が公開されました.これはテキストやインタラクションに応じてリアルタイムに動画を生成できる点を最大の特徴とするAIサービスです.本稿では,新たに登場したOdyssey-2を軸に,関連研究の動向をたどりながら,今後の動画生成AIの展望を考察していきたいと思います.
1. Odyssey-2とは何か?
前述の通り,Odyssey-2はテキストやインタラクションに応じてリアルタイムに動画を生成できる点を最大の特徴としています.
従来の動画生成モデルでは「入力プロンプトを与えて数十秒から数分待ち,数秒の動画が得られる」という非同期的な体験が主流でした.これに対してOdyssey-2は,ユーザーが操作するたびに映像が即座に更新される仕組みを実装し,生成のパラダイムを根本から変えています.
創業者である Oliver Cameron は,自身のブログにおいて「この技術はオンデマンドで物語を生成し展開できる,全く新しいメディア形態の扉を開く」と述べています.これは単なる映像制作の効率化にとどまらず,映画やゲームといった従来のエンターテインメントの枠を超え,ユーザー自身が独自の物語をリアルタイムで生成しながら楽しむコンテンツが主流となる可能性を示唆しています.
2. Realtime & Interactive Video GenAIの技術的基盤
1章ではOdyssey-2の概要に触れましたが,本章からはその仕組みについて最新の論文を手がかりに考察していきます.2025年10月29日現在,Odyssey-2のアーキテクチャは公開されていません.そのため,本稿では関連性の高い先行研究を参照しながら,その内部構造や原理に迫っていきます.
2025年9月にNVIDIAが発表した研究「LONGLIVE: REAL-TIME INTERACTIVE LONG VIDEO GENERATION」は,Odyssey-2ときわめて近いコンセプトを持つモデルです.LONGLIVEでは,実行時にプロンプト入力をストリーミングで受け付けることにより,ユーザーがリアルタイムかつインタラクティブにナラティブを誘導できる仕組みを実装しています.
この論文のタイトルが示す通り,鍵となるのはRealtimeとInteractiveです.本章ではこの二点をそれぞれ深掘りしていきます.まずリアルタイム性に関する研究として,Self-Forcingのアプローチを取り上げます.
2.1. リアルタイム動画生成 Self-Forcing
Self-Forcing は2025年6月にAdobeから発表された論文であり,動画生成におけるリアルタイム性を実現する重要な研究です.この手法の最大の特徴は,auto-regressiveモデルを採用している点です.
わかりやすい例を挙げれば,大規模言語モデル(LLM)が文脈に基づいて次に来る単語を逐次予測するように,Self-Forcingではこれまで生成された動画フレームに基づいて「次に来る画像フレーム」を予測します.つまり,動画を逐次的に構築していくアプローチです.
従来の多くのvideo diffusion modelがbidirectional attentionを用い,全フレームに対して並列的にattentionを計算していたのに対し,auto-regressiveモデルは逐次推論によって時間的な連続性を担保します.

さらに,推論時の高速化を実現する上で重要な要素がKV Caching(Key-Value Caching)の活用です.通常,auto-regressiveモデルは効率的な推論のためにKVキャッシュを利用し,過去のkeyとvalueを保存して再利用することで計算コストを削減します.
Self-Forcingの特徴は,この仕組みを推論時だけでなく訓練時にも導入している点にあります.これにより,推論時の挙動,すなわちcausal attentionにおけるコンテキストのキャッシュとその利用を訓練過程で忠実に模倣できます.結果として,訓練と推論の整合性が強化され,モデルの安定性と推論効率が大幅に向上しています.

さらに,Self-ForcingではローリングKVキャッシュメカニズムが導入されています.これは固定サイズのKVキャッシュを維持し,新しいフレームを生成するたびに最も古いキャッシュエントリを削除する仕組みです.このアプローチにより,KVキャッシュを更新する際に発生する冗長な計算を回避できます.
もう一点,Self-ForcingはExposure Biasの問題に対処することを試みています.従来のauto-regressiveモデル(Teacher ForcingやDiffusion Forcingなど)では,訓練時にクリーンな正解データをコンテキストとして用いる一方で,推論時にはモデル自身が生成した不完全な出力を入力として利用する必要があります.この**「訓練時と推論時における分布のミスマッチ」こそがExposure Biasであり,時間の経過に伴って誤差が累積し,最終的に生成される動画の品質劣化や一貫性の喪失を招きます.
Self-Forcingでは,この問題を緩和するために新しい学習損失を導入し,訓練段階から推論時の挙動をより忠実に模倣する設計を採用しています.これにより,長尺動画生成における安定性が改善され,時間的に一貫した映像を生成できる可能性が高まっています.
2.2. インタラクティブな動画生成
ここからは再びLONGLIVEの論文に戻ります.LONGLIVEはSelf-Forcingと同様にAutoregressiveかつCausal(因果的)なフレームワーク を採用しており,効率的な推論を実現するためのKVキャッシュメカニズムを継承しています.つまり,新たなプロンプトが入力されるたびに,そのプロンプトに条件づけられた動画生成を行うことで,インタラクティブな動画生成を可能にしています.

LONGLIVEの大きな特徴は,以下の三つの工夫に集約されます.
1. KV-recache(KV再キャッシュ)
その名の通り,プロンプトが切り替わる境界においてキャッシュされたKey-Value(KV)状態を更新する仕組みです.切り替え直前の生成済みフレームの視覚的コンテキストと,新しいプロンプトの埋め込みを用いてKVキャッシュを再計算することで,旧プロンプトのキャッシュを効果的に消去します.これにより,視覚的な連続性を維持しつつ,新しいプロンプトへの迅速な順応を実現しています.
2. Short-Window Attention と Frame Sink
LONGLIVEは計算効率を高めるために,アテンションの計算範囲を固定された短い時間窓(Short Window)内に限定しています.これにより,ビデオの長尺化に伴い二乗オーダーで増大する計算コストを削減し,推論速度を大幅に改善できます.ただし,短い時間窓のみを参照すると,長距離の一貫性が失われるという課題が残ります.この問題に対し,LONGLIVEはFrame Sinkを導入しました.Frame Sinkは最初のフレームチャンクのトークンを「恒久的なグローバルアンカー」としてKVキャッシュに保持し続けることで,短ウィンドウアテンションを用いながらも長距離の時間的一貫性を大幅に改善しています.
3. Streaming Long Tuning(ストリーミング長距離チューニング)
最後に,訓練時と推論時のギャップを解消するために,Streaming Long Tuningという学習戦略が提案されています.この手法では,モデルが自ら生成した(不完全である可能性を含む)過去フレームを条件として次の短いクリップを生成し,そのクリップに対してのみ教師モデルの監督信号(DMD損失)を適用します.これにより,OOM(メモリ不足)を回避しつつ,モデルを長期的な自己生成コンテキストにさらすことが可能となり,長時間にわたるコンテンツのドリフトや一貫性の崩壊を防ぐ効果が得られます.
3. 動画生成AIの課題
ここまででLONGLIVEとSelf-Forcingを見てきました.いくつかの課題は改善されつつあるものの,やはり最も深刻な問題は長期的な一貫性(Long-term Consistency)の維持にあります.
Auto Regressiveモデルが長尺ビデオを生成する際には,時間の経過とともに初期に生成された内容が失われていく現象がしばしば発生します.この要因は大きく二つあり、Exposure BiasとDrifting(エラーの累積)が有名です.Exposure Biasについては前述の通りですが,Driftingとは,ごく小さな初期誤差が生成の進行とともに伝播・蓄積し,最終的にビジュアル品質の劣化や一貫性の喪失を招く現象を指します.
さらに深刻なのが3D空間的記憶の一貫性の欠如(3D Spatial Consistency)です.特にインタラクティブな世界シミュレーションの文脈においては,モデルが空間的記憶を保持できないことが,キャラクターやオブジェクトの位置関係の破綻といった形で顕在化します.この「空間記憶力の欠如」は,リアルタイム動画生成AIを実用的な没入型コンテンツへと発展させる上で,大きな技術的壁となっています.こういった課題に対処する研究論文も報告されているので,いずれ取り上げたいと思います。
終わりに
ここまでOdyssey-2を理解するために,Self-ForcingとLONGLIVEという二つの研究を見てきました.これらはリアルタイム性やインタラクティブ性の実現に大きく寄与していますが,依然として課題が残されています.なかでも根本的に難しいのが,長期的な記憶の維持です.
この課題を克服するには,生成過程を一度3D空間へと投影し,物理的整合性を保証する仕組みを導入したり,外部記憶モジュールを組み込む必要があると考えられます.ただし一方で,Odyssey-2やGoogleのGenie3は「忘却」を前提としてインタラクティブにコンテンツを生成するサービスとして成立させる方向性も十分にあり得ると思っています.生成の不完全さや即興性を魅力とする新しいジャンルが生まれる可能性もあると思います.
今後,長期的一貫性や記憶の問題が技術的に解決された場合,人それぞれが自分のナラティブをリアルタイムに構築できるコンテンツが劇的に増えることになります.その一方で,リアルタイム動画生成自体も様々なエンタメに応用が期待できる技術です.その時代にふさわしい新しい利用法を模索し続けることが,今後の動画生成AIの活用を模索する上で重要になってくると思います.
参考文献
Discussion