Wan2.1: オープンソースの最先端動画生成モデル
本記事は以下の公式ブログを参考にしています。
概要
Wan2.1は、動画生成の最前線を押し広げるために開発されたオープンソースの動画基盤モデルスイートです。本リポジトリでは、そのコードと学習済みウェイトを公開しています。
Wan2.1の主な特徴は以下の通りです。
🚀 最先端の性能 (SOTA Performance)
Wan2.1は、複数のベンチマークにおいて、既存のオープンソースモデルや最先端の商用モデルを凌駕する性能を発揮します。
🖥 一般向けGPUで動作
T2V-1.3Bモデルは、わずか8.19GBのVRAMで動作可能。RTX 4090を使用すれば、最適化なしでも5秒間の480P動画を約4分で生成できます。これにより、一般のコンシューマー向けGPUでも手軽に動画生成が可能です。
🎥 多様なタスクに対応
Wan2.1は、以下のタスクに対応しています:
- Text-to-Video (T2V)
- Image-to-Video (I2V)
- 動画編集 (Video Editing)
- Text-to-Image
- Video-to-Audio
🔠 中国語・英語のテキスト動画生成
Wan2.1は、中国語と英語のテキストを動画内に生成できる初のオープンソース動画モデルであり、実用性が大幅に向上しました。
🏆 強力なVideo VAE
Wan-VAEは、1080P動画のエンコード・デコードを効率的に行い、時間情報を維持した高品質な動画・画像生成を実現します。
Wan2.1の主要モデル
Wan2.1-I2V-14B
- 480P / 720P対応
- 閉源モデルを凌駕するSOTA性能を達成
- 複雑な視覚シーンや動作パターンを表現可能
Wan2.1-T2V-14B
- 480P / 720P対応
- オープンソース・クローズドソース両方の最先端モデルを超える高性能
- 中国語・英語のテキスト生成が可能な唯一の動画モデル
Wan2.1-T2V-1.3B
- 480P対応
- わずか8.19GBのVRAMで動作し、一般向けGPUでも動画生成が可能
- RTX 4090使用時に5秒動画を約4分で生成
- 大規模オープンソースモデルを凌駕し、一部の高性能クローズドモデルに匹敵
技術詳細
3D変分オートエンコーダ (3D VAE)
Wan2.1では、動画生成向けに最適化された3D因果VAEを採用。
これにより以下のメリットが得られます:
- 時間軸の圧縮性能向上
- メモリ使用量削減
- 因果関係の維持
また、長時間動画のエンコード・デコードを効率化するため、特徴キャッシュ機構を導入。GPUメモリのオーバーフローを防ぎつつ、高速な処理を実現します。
実験結果では、同一のハードウェア環境(A800 GPU)において、既存のSOTA手法(HunYuanVideo)と比較し、2.5倍の速度で動画を復元可能。特に高解像度動画では、より顕著なスピード向上が期待できます。
動画生成のための拡散DiT (Diffusion Transformer)
Wan2.1は、Flow Matchingフレームワークを採用した拡散変換器 (DiT) に基づいて設計されています。
主な特徴:
- T5 Encoderを活用し、多言語のテキストを効果的に埋め込み
- SiLU関数を用いたモジュレーションパラメータの予測により、精度向上
- 14B・1.3B両モデルで適用され、パラメータスケール内で大幅な性能向上を確認
モデルスケーリングと学習効率
Wan2.1の学習・推論では、FSDP (Fully Sharded Data Parallel) によるモデル分割を活用。
学習時:
- FSDP + Context Parallel (CP) の組み合わせにより、並列処理効率を向上
- データ並列 (DP) とFSDPを組み合わせ、スケール拡張
推論時:
-
大規模モデルの分割 (Model Sharding)
- 14Bモデルでは、FSDPによるシャーディングが通信オーバーヘッドを低減
-
コンテキスト並列 (Context Parallel)
- 2D Context Parallel を採用し、外部層 (RingAttention) と 内部層 (Ulysses) の組み合わせでスケール効率を最大化
タスク別機能詳細
Image-to-Video (I2V)
静止画像を基に動画を生成するI2Vタスクでは、最初のフレームを条件画像として提供し、動画のコントロール性を向上。
主な処理:
- 条件画像 + ゼロフレームを時系列方向に結合し、ガイドフレームを形成
- 3D VAEで圧縮し、条件潜在表現を生成
- バイナリマスクを適用し、フレームの生成有無を決定
- DiTに条件潜在表現・マスクを入力し、動画生成を実施
さらに、CLIP画像エンコーダを活用し、条件画像の特徴を抽出し、DiTモデル内でグローバルコンテキストとして活用。
データセット
Wan2.1の学習データセットは、以下のように構成:
- 1.5億本の動画 + 100億枚の画像
- 内部の著作権データと公開データを組み合わせ
-
品質と多様性を確保する4ステップのデータクリーニングプロセスを実施
- 基本要素のチェック
- 視覚品質の向上
- 動作品質の向上
- 重複データの排除
SOTAとの比較
Wan2.1の各モデルは、異なるGPU環境での計算効率を測定。
結果は以下のフォーマットで表記:
総処理時間 (秒) / 最大GPUメモリ使用量 (GB)
これにより、一般的なGPU環境でも高品質な動画生成が可能であることを証明しました。
今後の展望
現在、包括的な技術レポートの公開準備を進めています。
Wan2.1は、拡散変換器 (DiT) の進化と3D VAEの高効率化により、動画生成の新たな標準を確立。今後も、さらなる性能向上と最適化を目指します。
🔗 Wan2.1の最新情報は、公式リポジトリをご確認ください!
Discussion