📹

Wan2.1: オープンソースの最先端動画生成モデル

2025/02/26に公開

本記事は以下の公式ブログを参考にしています。
https://wanxai.com/

概要

Wan2.1は、動画生成の最前線を押し広げるために開発されたオープンソースの動画基盤モデルスイートです。本リポジトリでは、そのコードと学習済みウェイトを公開しています。
Wan2.1の主な特徴は以下の通りです。

🚀 最先端の性能 (SOTA Performance)

Wan2.1は、複数のベンチマークにおいて、既存のオープンソースモデルや最先端の商用モデルを凌駕する性能を発揮します。

🖥 一般向けGPUで動作

T2V-1.3Bモデルは、わずか8.19GBのVRAMで動作可能。RTX 4090を使用すれば、最適化なしでも5秒間の480P動画を約4分で生成できます。これにより、一般のコンシューマー向けGPUでも手軽に動画生成が可能です。

🎥 多様なタスクに対応

Wan2.1は、以下のタスクに対応しています:

  • Text-to-Video (T2V)
  • Image-to-Video (I2V)
  • 動画編集 (Video Editing)
  • Text-to-Image
  • Video-to-Audio

🔠 中国語・英語のテキスト動画生成

Wan2.1は、中国語と英語のテキストを動画内に生成できる初のオープンソース動画モデルであり、実用性が大幅に向上しました。

🏆 強力なVideo VAE

Wan-VAEは、1080P動画のエンコード・デコードを効率的に行い、時間情報を維持した高品質な動画・画像生成を実現します。


Wan2.1の主要モデル

Wan2.1-I2V-14B

  • 480P / 720P対応
  • 閉源モデルを凌駕するSOTA性能を達成
  • 複雑な視覚シーンや動作パターンを表現可能

Wan2.1-T2V-14B

  • 480P / 720P対応
  • オープンソース・クローズドソース両方の最先端モデルを超える高性能
  • 中国語・英語のテキスト生成が可能な唯一の動画モデル

Wan2.1-T2V-1.3B

  • 480P対応
  • わずか8.19GBのVRAMで動作し、一般向けGPUでも動画生成が可能
  • RTX 4090使用時に5秒動画を約4分で生成
  • 大規模オープンソースモデルを凌駕し、一部の高性能クローズドモデルに匹敵

技術詳細

3D変分オートエンコーダ (3D VAE)

Wan2.1では、動画生成向けに最適化された3D因果VAEを採用。
これにより以下のメリットが得られます:

  • 時間軸の圧縮性能向上
  • メモリ使用量削減
  • 因果関係の維持

また、長時間動画のエンコード・デコードを効率化するため、特徴キャッシュ機構を導入。GPUメモリのオーバーフローを防ぎつつ、高速な処理を実現します。

実験結果では、同一のハードウェア環境(A800 GPU)において、既存のSOTA手法(HunYuanVideo)と比較し、2.5倍の速度で動画を復元可能。特に高解像度動画では、より顕著なスピード向上が期待できます。


動画生成のための拡散DiT (Diffusion Transformer)

Wan2.1は、Flow Matchingフレームワークを採用した拡散変換器 (DiT) に基づいて設計されています。
主な特徴:

  • T5 Encoderを活用し、多言語のテキストを効果的に埋め込み
  • SiLU関数を用いたモジュレーションパラメータの予測により、精度向上
  • 14B・1.3B両モデルで適用され、パラメータスケール内で大幅な性能向上を確認

モデルスケーリングと学習効率

Wan2.1の学習・推論では、FSDP (Fully Sharded Data Parallel) によるモデル分割を活用。
学習時:

  • FSDP + Context Parallel (CP) の組み合わせにより、並列処理効率を向上
  • データ並列 (DP) とFSDPを組み合わせ、スケール拡張

推論時:

  • 大規模モデルの分割 (Model Sharding)
    • 14Bモデルでは、FSDPによるシャーディングが通信オーバーヘッドを低減
  • コンテキスト並列 (Context Parallel)
    • 2D Context Parallel を採用し、外部層 (RingAttention)内部層 (Ulysses) の組み合わせでスケール効率を最大化

タスク別機能詳細

Image-to-Video (I2V)

静止画像を基に動画を生成するI2Vタスクでは、最初のフレームを条件画像として提供し、動画のコントロール性を向上。
主な処理:

  1. 条件画像 + ゼロフレームを時系列方向に結合し、ガイドフレームを形成
  2. 3D VAEで圧縮し、条件潜在表現を生成
  3. バイナリマスクを適用し、フレームの生成有無を決定
  4. DiTに条件潜在表現・マスクを入力し、動画生成を実施

さらに、CLIP画像エンコーダを活用し、条件画像の特徴を抽出し、DiTモデル内でグローバルコンテキストとして活用。


データセット

Wan2.1の学習データセットは、以下のように構成:

  • 1.5億本の動画 + 100億枚の画像
  • 内部の著作権データと公開データを組み合わせ
  • 品質と多様性を確保する4ステップのデータクリーニングプロセスを実施
    • 基本要素のチェック
    • 視覚品質の向上
    • 動作品質の向上
    • 重複データの排除

SOTAとの比較

Wan2.1の各モデルは、異なるGPU環境での計算効率を測定。
結果は以下のフォーマットで表記:
総処理時間 (秒) / 最大GPUメモリ使用量 (GB)

これにより、一般的なGPU環境でも高品質な動画生成が可能であることを証明しました。


今後の展望

現在、包括的な技術レポートの公開準備を進めています。
Wan2.1は、拡散変換器 (DiT) の進化3D VAEの高効率化により、動画生成の新たな標準を確立。今後も、さらなる性能向上と最適化を目指します。

🔗 Wan2.1の最新情報は、公式リポジトリをご確認ください!
https://github.com/Wan-Video/Wan2.1?tab=readme-ov-file

Discussion