🎬

Alibaba Wan 2.1動画生成AIモデルをPAI ModelGalleryでデプロイしてみた

2025/04/23に公開

近年、AIによる動画生成技術は急速に発展し、テキストや画像から高品質な動画を生成できるようになりました。その中でも、Alibaba Cloudが開発・公開した「Wan 2.1」は、オープンソースで提供されている最先端の動画生成AIモデルです。
この記事では、AlibabaのWan 2.1動画生成AIモデルをAlibaba Cloud Platform for AI（通称PAI）のModelGalleryを利用して直接デプロイし、実際に動作させる手順をエンジニア向けに詳細に解説します。PAIのModelGallery機能を使うことで、GitHub等からのモデルの手動ダウンロードや複雑な設定をすることなく、簡単かつ効率的にモデルをデプロイできます。

 1. Wan 2.1モデルの概要と特徴Wan 2.1は、Alibaba Cloudによって開発された包括的なビデオ生成AIモデルスイートです。このモデルは2025年2月にオープンソース化され、テキストから動画（Text-to-Video、T2V）および画像から動画（Image-to-Video、I2V）の両方の機能を備えています。
wan.video

 主な特徴
🚀 最先端のパフォーマンス: オープンソースおよび商用モデルを含む他の動画生成モデルと比較して優れた性能を示しています。

💻 一般的なGPUでの実行: 小規模なT2V-1.3Bモデルは8.19 GB VRAMのみを必要とし、ほぼすべての一般的なGPUで動作可能です。

🛠️複数のタスク対応: Text-to-Video、Image-to-Video、Video Editing、Text-to-Image、Video-to-Audioなどの機能を持っています。

📝テキスト生成能力: 中国語と英語の両方のテキストを動画内に生成できる最初のビデオモデルです。

🎥 強力なビデオVAE: 高効率・高性能なエンコーディングとデコーディングにより、任意の長さの720P動画を処理できます。

 利用可能なモデルバリエーションWan 2.1には以下のモデルバリエーションが用意されています：


モデル
パラメータ数
対応解像度
特徴


T2V-14B
140億
480P/720P
高品質なテキストから動画生成

T2V-1.3B
13億
480P
軽量で一般的なGPUでも動作

I2V-14B-720P
140億
720P
高解像度の画像から動画生成

I2V-14B-480P
140億
480P
標準解像度の画像から動画生成


 2. Wan 2.1モデルについて詳細解説Wan 2.1は、メインストリームのディフュージョントランスフォーマーパラダイムに基づいて設計されています。モデルの核となる部分は以下の技術から構成されています：
Wan-AI/Wan2.1-I2V-14B-720P-Diffusers · Hugging Face

 3D変分オートエンコーダー (Wan-VAE)Wan 2.1は、ビデオ生成向けに特別に設計された新しい3D因果的VAEアーキテクチャを採用しています。これにより空間的・時間的圧縮の向上、メモリ使用量の削減、時間的因果関係の保証を実現しています。
このグラフでは、横軸がフレームあたりのレイテンシ（遅延）で測った「効率性」を、縦軸が「画質」を示すPSNRを表しています。PSNRは値が高いほど高画質です。

 ビデオディフュージョンDiTフローマッチングフレームワークを使用し、T5エンコーダで多言語テキスト入力をエンコードします。各トランスフォーマーブロックのクロスアテンションによりテキストをモデル構造に埋め込みます。

 モデルのアーキテクチャ

モデル
次元
入力次元
出力次元
フィードフォワード次元
周波数次元
ヘッド数
レイヤー数


1.3B
1536
16
16
8960
256
12
30

14B
5120
16
16
13824
256
40
40


 3. 前提条件この記事の手順を実行するには、以下の前提条件が必要です：

 Alibaba CloudアカウントとリソースAlibaba Cloudアカウント（未取得の場合は公式サイトから登録）
Platform for AI (PAI)の利用権限
十分なGPUリソース

 必要な知識Alibaba Cloudコンソールの基本的な操作
PAIの基本的な概念の理解
REST APIの基本知識

 ソフトウェア要件Webブラウザ
APIテスト用ツール（Postman、curlなど）

 4. Alibaba Cloud PAIの準備と基本設定
 PAIコンソールへのアクセスAlibaba Cloudコンソールにログイン
上部のプロダクト一覧から「Platform for AI (PAI)」を選択
PAIのダッシュボードが表示されます
リージョン：Japan (Tokyo) を選択

 5. PAI ModelGalleryからWan 2.1モデルを選択Alibaba Cloud PAIのModelGalleryは、すぐに使える各種AIモデルが事前に構成されたカタログです。ここからWan 2.1モデルを直接選択してデプロイできます。

 ModelGalleryへのアクセスPAIコンソールの左側ナビゲーションから「ModelGallery」を選択
検索バーに「Wan 2.1」と入力して検索
モデルバリエーションの選択
デプロイページでは、以下のWan 2.1のバリエーションから選択できます：
Wan2.1-T2V-14B: テキストから動画生成（高品質、大規模）
Wan2.1-T2V-1.3B: テキストから動画生成（軽量）
Wan2.1-I2V-14B-720P: 画像から動画生成（高解像度）
Wan2.1-I2V-14B-480P: 画像から動画生成（標準解像度）
検索結果からWan 2.1モデルを見つけます。今回は 「Wan2.1-I2V-14B-480P」 を利用します。

 モデルの選択と確認Wan 2.1モデルをクリックして詳細ページを開く
「デプロイ」ボタンをクリックしてデプロイプロセスを開始

 
 6. PAIでのWan 2.1モデルデプロイ手順
 デプロイ設定の構成「モデルデプロイ」ページで以下の情報を入力：
Deployment Method: 「Single-GPU」を選択
Basic Infomation:
Service Creation Method: Create Service を選択
Service Name: 適当な名前を入力
リソース設定：
インスタンス数：1（必要に応じて増やせます）
インスタンスタイプ：ecs.gn7e-c16g1.4xlarge以上
利用できるGPUが限られる為、適切で利用可能なマシンを選択する


 デプロイの実行すべての設定を確認
「作成」ボタンをクリックしてデプロイを開始
デプロイステータスがダッシュボードに表示されます
デプロイ完了までしばらく待ちます（モデルサイズによって5〜20分程度）

 デプロイ状態の確認PAIコンソールの「Model Gallery > Deployment Jobs」セクションでデプロイ状態を確認
ステータスが「In operation」になればデプロイ完了
以下の情報が表示されます：
サービスエンドポイントURL
APIアクセス認証情報
サービスの状態とメトリクス

 7. デプロイ後のモデル動作確認
 Web Appでの検証Web AppボタンからUIを立ち上げ。
※ この際、Deployment Jobsの画面にあるView Web Appボタンからでは、URLのリンクが異なる為、 Elastic Algorithm Service (EAS) にある作成したマシンから遷移するとうまくいった。

Upload Input Image (画像のアップロード)

まず、動画の元となる画像をアップロードします。画面左上の「Upload Input Image」セクションにあるアップロードボタン（アイコン）をクリックするか、画像をドラッグ＆ドロップしてください。

Prompt (指示)

次に、「Prompt」セクションに、生成したい動画の内容をテキストで入力します。どのような動きや変化を加えたいかを具体的に記述しましょう。

(オプション) Advanced Options (詳細設定)

より細かく調整したい場合は、「Advanced Options」を開きます。「Diffusion steps」（拡散ステップ数）、「Guide scale」（ガイダンススケール）、「Seed」（シード値）、「Negative Prompt」（ネガティブプロンプト）などを設定できますが、基本的な利用ではそのままでも大丈夫です。

Generate Video (動画生成)

最後に、画面下部にある「Generate Video」ボタンをクリックします。これにより、アップロードした画像と入力したプロンプトに基づいて、AIが動画の生成を開始します。生成には少し時間がかかる場合があります。

生成された動画は、画面右側の「Generated Video」セクションに表示されます。
720Pでは大体30分かかりました。480Pも試したところ同様のタスクが10分程度で終わったので、何度も回したい場合は480Pを利用するのが良いかもしれません。
待っている間に、モニタリングやログにより動作していることが確認出来る。

 実際の検証結果ネジっぽい3Dプリンタで作成したものを、I2Vで回るようにした。
下記が出力結果の動作

 8. まとめこの記事では、Alibaba Cloud Platform for AI (PAI)のModelGalleryを利用して、Wan 2.1動画生成AIモデルを簡単にデプロイし、実際に利用する方法について解説しました。

 学んだことWan 2.1モデルの概要と特徴
Alibaba Cloud PAIのModelGalleryからのモデルデプロイ方法
テキストと画像から動画（I2V）の生成方法
Alibaba Cloud PAIのModelGalleryを使用することで、複雑なセットアップやインフラ管理を気にすることなく、最先端のAI動画生成モデルを簡単にデプロイして利用できました。

 参考リソースAlibaba Cloud PAI公式ドキュメント
Wan 2.1 GitHub リポジトリ
Alibaba Cloud ModelScope
Alibaba Cloud EASガイド

モデル	パラメータ数	対応解像度	特徴
T2V-14B	140億	480P/720P	高品質なテキストから動画生成
T2V-1.3B	13億	480P	軽量で一般的なGPUでも動作
I2V-14B-720P	140億	720P	高解像度の画像から動画生成
I2V-14B-480P	140億	480P	標準解像度の画像から動画生成

1. Wan 2.1モデルの概要と特徴

主な特徴

利用可能なモデルバリエーション

2. Wan 2.1モデルについて詳細解説

3D変分オートエンコーダー (Wan-VAE)

ビデオディフュージョンDiT

モデルのアーキテクチャ

3. 前提条件

Alibaba Cloudアカウントとリソース

必要な知識

ソフトウェア要件

4. Alibaba Cloud PAIの準備と基本設定

PAIコンソールへのアクセス

5. PAI ModelGalleryからWan 2.1モデルを選択

ModelGalleryへのアクセス

モデルの選択と確認

6. PAIでのWan 2.1モデルデプロイ手順

デプロイ設定の構成

デプロイの実行

デプロイ状態の確認

7. デプロイ後のモデル動作確認

Web Appでの検証

実際の検証結果

8. まとめ

学んだこと

参考リソース

Discussion