🎬

Alibaba Wan 2.1動画生成AIモデルをPAI ModelGalleryでデプロイしてみた

に公開

近年、AIによる動画生成技術は急速に発展し、テキストや画像から高品質な動画を生成できるようになりました。その中でも、Alibaba Cloudが開発・公開した「Wan 2.1」は、オープンソースで提供されている最先端の動画生成AIモデルです。

この記事では、AlibabaのWan 2.1動画生成AIモデルをAlibaba Cloud Platform for AI(通称PAI)のModelGalleryを利用して直接デプロイし、実際に動作させる手順をエンジニア向けに詳細に解説します。PAIのModelGallery機能を使うことで、GitHub等からのモデルの手動ダウンロードや複雑な設定をすることなく、簡単かつ効率的にモデルをデプロイできます。

1. Wan 2.1モデルの概要と特徴

Wan 2.1は、Alibaba Cloudによって開発された包括的なビデオ生成AIモデルスイートです。このモデルは2025年2月にオープンソース化され、テキストから動画(Text-to-Video、T2V)および画像から動画(Image-to-Video、I2V)の両方の機能を備えています。

wan.video

主な特徴

  • 🚀 最先端のパフォーマンス: オープンソースおよび商用モデルを含む他の動画生成モデルと比較して優れた性能を示しています。
  • 💻 一般的なGPUでの実行: 小規模なT2V-1.3Bモデルは8.19 GB VRAMのみを必要とし、ほぼすべての一般的なGPUで動作可能です。
  • 🛠️複数のタスク対応: Text-to-Video、Image-to-Video、Video Editing、Text-to-Image、Video-to-Audioなどの機能を持っています。
  • 📝テキスト生成能力: 中国語と英語の両方のテキストを動画内に生成できる最初のビデオモデルです。
  • 🎥 強力なビデオVAE: 高効率・高性能なエンコーディングとデコーディングにより、任意の長さの720P動画を処理できます。

利用可能なモデルバリエーション

Wan 2.1には以下のモデルバリエーションが用意されています:

モデル パラメータ数 対応解像度 特徴
T2V-14B 140億 480P/720P 高品質なテキストから動画生成
T2V-1.3B 13億 480P 軽量で一般的なGPUでも動作
I2V-14B-720P 140億 720P 高解像度の画像から動画生成
I2V-14B-480P 140億 480P 標準解像度の画像から動画生成

2. Wan 2.1モデルについて詳細解説

Wan 2.1は、メインストリームのディフュージョントランスフォーマーパラダイムに基づいて設計されています。モデルの核となる部分は以下の技術から構成されています:

Wan-AI/Wan2.1-I2V-14B-720P-Diffusers · Hugging Face

3D変分オートエンコーダー (Wan-VAE)

Wan 2.1は、ビデオ生成向けに特別に設計された新しい3D因果的VAEアーキテクチャを採用しています。これにより空間的・時間的圧縮の向上、メモリ使用量の削減、時間的因果関係の保証を実現しています。

image.png

このグラフでは、横軸がフレームあたりのレイテンシ(遅延)で測った「効率性」を、縦軸が「画質」を示すPSNRを表しています。PSNRは値が高いほど高画質です。

ビデオディフュージョンDiT

フローマッチングフレームワークを使用し、T5エンコーダで多言語テキスト入力をエンコードします。各トランスフォーマーブロックのクロスアテンションによりテキストをモデル構造に埋め込みます。

image.png

モデルのアーキテクチャ

モデル 次元 入力次元 出力次元 フィードフォワード次元 周波数次元 ヘッド数 レイヤー数
1.3B 1536 16 16 8960 256 12 30
14B 5120 16 16 13824 256 40 40

3. 前提条件

この記事の手順を実行するには、以下の前提条件が必要です:

Alibaba Cloudアカウントとリソース

  • Alibaba Cloudアカウント(未取得の場合は公式サイトから登録)
  • Platform for AI (PAI)の利用権限
  • 十分なGPUリソース

必要な知識

  • Alibaba Cloudコンソールの基本的な操作
  • PAIの基本的な概念の理解
  • REST APIの基本知識

ソフトウェア要件

  • Webブラウザ
  • APIテスト用ツール(Postman、curlなど)

4. Alibaba Cloud PAIの準備と基本設定

PAIコンソールへのアクセス

  1. Alibaba Cloudコンソールにログイン
  2. 上部のプロダクト一覧から「Platform for AI (PAI)」を選択
  3. PAIのダッシュボードが表示されます
  4. リージョン:Japan (Tokyo) を選択

5. PAI ModelGalleryからWan 2.1モデルを選択

Alibaba Cloud PAIのModelGalleryは、すぐに使える各種AIモデルが事前に構成されたカタログです。ここからWan 2.1モデルを直接選択してデプロイできます。

ModelGalleryへのアクセス

  1. PAIコンソールの左側ナビゲーションから「ModelGallery」を選択
  2. 検索バーに「Wan 2.1」と入力して検索
  3. モデルバリエーションの選択

デプロイページでは、以下のWan 2.1のバリエーションから選択できます:

  1. Wan2.1-T2V-14B: テキストから動画生成(高品質、大規模)

  2. Wan2.1-T2V-1.3B: テキストから動画生成(軽量)

  3. Wan2.1-I2V-14B-720P: 画像から動画生成(高解像度)

  4. Wan2.1-I2V-14B-480P: 画像から動画生成(標準解像度)

  5. 検索結果からWan 2.1モデルを見つけます。今回は 「Wan2.1-I2V-14B-480P」 を利用します。

    スクリーンショット_0007-04-11_10_13_15.png

モデルの選択と確認

  1. Wan 2.1モデルをクリックして詳細ページを開く

  2. 「デプロイ」ボタンをクリックしてデプロイプロセスを開始

    スクリーンショット_0007-04-11_16_18_37.png

6. PAIでのWan 2.1モデルデプロイ手順

デプロイ設定の構成

  1. 「モデルデプロイ」ページで以下の情報を入力:

    • Deployment Method: 「Single-GPU」を選択

    • Basic Infomation:

      • Service Creation Method: Create Service を選択
      • Service Name: 適当な名前を入力

      スクリーンショット 0007-04-11 10.28.45.png

  2. リソース設定:

    • インスタンス数:1(必要に応じて増やせます)
    • インスタンスタイプ:ecs.gn7e-c16g1.4xlarge以上
      • 利用できるGPUが限られる為、適切で利用可能なマシンを選択する

    スクリーンショット 0007-04-11 10.29.07.png

デプロイの実行

  1. すべての設定を確認

  2. 「作成」ボタンをクリックしてデプロイを開始

  3. デプロイステータスがダッシュボードに表示されます

  4. デプロイ完了までしばらく待ちます(モデルサイズによって5〜20分程度)

    スクリーンショット 0007-04-11 10.29.51.png

デプロイ状態の確認

  1. PAIコンソールの「Model Gallery > Deployment Jobs」セクションでデプロイ状態を確認

  2. ステータスが「In operation」になればデプロイ完了

    スクリーンショット 0007-04-11 10.43.16.png

  3. 以下の情報が表示されます:

    • サービスエンドポイントURL

    • APIアクセス認証情報

      スクリーンショット 0007-04-11 11.10.23.png

    • サービスの状態とメトリクス

7. デプロイ後のモデル動作確認

Web Appでの検証

Web AppボタンからUIを立ち上げ。

※ この際、Deployment Jobsの画面にあるView Web Appボタンからでは、URLのリンクが異なる為、 Elastic Algorithm Service (EAS) にある作成したマシンから遷移するとうまくいった。

スクリーンショット 0007-04-11 13.32.51.png

  1. Upload Input Image (画像のアップロード)
    まず、動画の元となる画像をアップロードします。画面左上の「Upload Input Image」セクションにあるアップロードボタン(アイコン)をクリックするか、画像をドラッグ&ドロップしてください。
  2. Prompt (指示)
    次に、「Prompt」セクションに、生成したい動画の内容をテキストで入力します。どのような動きや変化を加えたいかを具体的に記述しましょう。
  3. (オプション) Advanced Options (詳細設定)
    より細かく調整したい場合は、「Advanced Options」を開きます。「Diffusion steps」(拡散ステップ数)、「Guide scale」(ガイダンススケール)、「Seed」(シード値)、「Negative Prompt」(ネガティブプロンプト)などを設定できますが、基本的な利用ではそのままでも大丈夫です。
  4. Generate Video (動画生成)
    最後に、画面下部にある「Generate Video」ボタンをクリックします。これにより、アップロードした画像と入力したプロンプトに基づいて、AIが動画の生成を開始します。生成には少し時間がかかる場合があります。
    生成された動画は、画面右側の「Generated Video」セクションに表示されます。

720Pでは大体30分かかりました。480Pも試したところ同様のタスクが10分程度で終わったので、何度も回したい場合は480Pを利用するのが良いかもしれません。

待っている間に、モニタリングやログにより動作していることが確認出来る。

スクリーンショット 0007-04-11 13.46.41.png

実際の検証結果

ネジっぽい3Dプリンタで作成したものを、I2Vで回るようにした。

スクリーンショット 0007-04-11 13.49.27.png

下記が出力結果の動作

x782zD.mp4

8. まとめ

この記事では、Alibaba Cloud Platform for AI (PAI)のModelGalleryを利用して、Wan 2.1動画生成AIモデルを簡単にデプロイし、実際に利用する方法について解説しました。

学んだこと

  • Wan 2.1モデルの概要と特徴
  • Alibaba Cloud PAIのModelGalleryからのモデルデプロイ方法
  • テキストと画像から動画(I2V)の生成方法

Alibaba Cloud PAIのModelGalleryを使用することで、複雑なセットアップやインフラ管理を気にすることなく、最先端のAI動画生成モデルを簡単にデプロイして利用できました。

参考リソース

Discussion