うさぎでもわかるHunyuanCustom:マルチモーダル動画生成の最前線
うさぎでもわかるHunyuanCustom
👇️PodCastでも聴けます
こんにちは!🐰です!今回はTencent(テンセント)が開発した最新の動画生成AIモデル「HunyuanCustom」について解説するぴょん!
はじめに
2025年に入り、AI動画生成の技術はますます進化していますが、「特定の人物や動物が出演する動画を自由自在に生成する」という課題には依然として多くの壁がありました。被写体のアイデンティティを維持しつつ、テキスト指示通りの動きをさせる。そして音声に合わせた自然な動きを加える...これら全てを高品質に実現するのは簡単ではないのです。
そんな中、テンセントの研究チームは「HunyuanCustom」という革新的なモデルを発表しました。論文『HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation』で詳細が公開されているこのモデルは、テキスト・画像・音声・動画という複数のモダリティをシームレスに統合し、被写体の一貫性を高い水準で維持できる画期的なアーキテクチャを実現しています。
今回は、うさぎでもわかるようにHunyuanCustomの仕組みと実用例を紹介するぴょん!
HunyuanCustomの技術的特徴
HunyuanCustomの最大の特徴は、被写体のアイデンティティを保ちながら多様な入力条件に対応できる点です。一般的なAI動画生成モデルと比較して、以下の3つの大きな技術的特徴がありますぴょん。
マルチモーダル条件付き生成の仕組み
HunyuanCustomは、以下の4つの入力モダリティに対応しています:
- テキスト:シーンや行動を記述したプロンプト
- 画像:生成される人物や動物などの参照画像
- 音声:生成される映像と同期させる音声データ
- 動画:動作や環境を参照するための条件付け動画
これらの入力を柔軟に組み合わせることで、「特定の人物がテキスト指示の通りに動く」「特定の人物が音声に合わせて話す」「指定した動画の人物を別の人物に置き換える」といった高度なカスタマイズが可能になっています。
ID一貫性を強調した設計
HunyuanCustomは、生成された動画全体を通して被写体のアイデンティティが一貫して維持されるよう特別に設計されています。時間軸に沿って特徴を強化する仕組みにより、一般的な動画生成モデルで見られる「顔や特徴が変化してしまう」という問題を大幅に軽減しています。
この一貫性維持は単一の被写体だけでなく、複数の被写体が登場するシーンでも効果を発揮します。例えば、「女性がパンダとボクシングをしている」というプロンプトでは、女性もパンダも一貫したアイデンティティを保ちながら自然な相互作用を行うことができます。
HunyuanVideoをベースとした拡張
HunyuanCustomは、同じくテンセントが開発した強力な動画生成フレームワーク「HunyuanVideo」をベースに構築されています。このベース自体が高品質な動画生成能力を持っており、そこにID一貫性とマルチモーダル入力対応を追加することで、カスタム動画生成においても優れたパフォーマンスを発揮します。
HunyuanVideoの効率的な時間的モデリング能力を活用することで、フレーム間の自然な移行と全体的な動画の一貫性が実現されています。
主要モジュールの解説
HunyuanCustomは複数の専門モジュールが連携して動作する複雑なシステムです。それぞれのモジュールがどのような役割を果たしているのか見ていきましょうぴょん!
テキスト-画像融合モジュール(LLaVAベース)
HunyuanCustomの重要なモジュールの一つが「テキスト-画像融合モジュール」です。これはマルチモーダル理解モデルであるLLaVA(Large Language and Vision Assistant)をベースにしています。
このモジュールの役割は以下の通りです:
- テキストプロンプトと参照画像を入力として受け取る
- 画像からアイデンティティ情報を抽出
- テキスト記述に画像のアイデンティティ情報を効果的に組み込む
- テキストと画像の相互作用を促進して、より良いマルチモーダル理解を実現
例えば、「女性がバイオリンを演奏している」というプロンプトと特定の女性の画像が与えられた場合、このモジュールは「この特定の女性がバイオリンを演奏している」という融合された理解を生成します。これにより、生成される動画は単なる「女性」ではなく、提供された画像の人物の特徴を反映したものになります。
画像ID強化モジュール
「画像ID強化モジュール」は、動画全体を通じて被写体のアイデンティティを維持するための核心的な技術です。
このモジュールの主な特徴は:
- 参照画像の情報を時間軸に沿って連結
- ビデオモデルの時間的モデリング能力を活用
- 動画の全フレームを通して被写体のアイデンティティを強化
技術的には、このモジュールは入力画像を時間的に拡張し、あたかも短いビデオクリップであるかのように扱います。これにより、モデルは単一の画像からでも時間的な一貫性を学習でき、生成された動画全体で被写体の特徴が維持されるようになります。
音声・動画条件付けメカニズム
HunyuanCustomは音声と動画を条件として使用するための特殊なメカニズムも備えています。
AudioNetモジュール
AudioNetモジュールは音声データを動画生成プロセスに統合するための仕組みです:
- 空間的クロスアテンションによる階層的アライメント
- 上位層、中間層、下位層での音声-映像の対応付け
- リップシンクや表情の自然なアニメーション生成
このモジュールにより、音声の抑揚や速度に合わせて、話者の唇の動きや表情が自然に変化する動画が生成されます。
ビデオ駆動型注入モジュール
もう一つの重要なコンポーネントは、既存の動画からの情報を新たな動画生成に活用する「ビデオ駆動型注入モジュール」です:
- パッチ化ベースの特徴アライメントネットワークを使用
- 入力動画の圧縮された特徴を抽出
- 生成プロセスに効率的に注入
このモジュールにより、元の動画の動きや環境を保持したまま、被写体だけを別の人物や動物に置き換えることが可能になります。
注目すべき点は、これらのモダリティ固有の条件注入メカニズムがアイデンティティ条件モジュールと効果的に分離されていることです。この設計により、テキスト、画像、音声、動画という異なる入力を独立して制御しながら統合できる柔軟性が実現されています。
HunyuanCustomの実用例
HunyuanCustomは多様なカスタム動画生成タスクに対応可能です。公式サイトで紹介されている主な実用例を見てみましょうぴょん!
単一被写体のビデオカスタマイズ
最も基本的な使用例は、1人の人物や1匹の動物を対象とした動画生成です。参照画像とテキストプロンプトを入力として、その人物や動物がプロンプトに記述された行動をしている動画が生成されます。
公式サイトで紹介されている例:
- 「男性が音楽を聴きながらキッチンでスネイルヌードルを調理している」
- 「音楽のリハーサル室で、女性がバイオリンを持ち、演奏に集中している」
- 「女の子がリビングルームでぬいぐるみと『おうちごっこ』をしている」
- 「犬が公園で猫を追いかけている」
これらの例では、提供された参照画像の人物や動物の特徴を保ちつつ、自然な動きを持った動画が生成されています。特に顔の特徴や身体の比率が一貫して維持されている点が従来モデルと大きく異なります。
複数被写体のビデオカスタマイズ
より高度な使用例として、複数の被写体が登場する動画の生成が可能です。それぞれの被写体に対して参照画像を提供し、テキストプロンプトでそれらの相互作用を指定します。
公式サイトの例:
- 「女性が自宅の黒板に猫の絵を描いている」
- 「女性がトラに乗り、野原をさまよっている」
- 「女性がパンダとボクシングをしていて、膠着状態にある」
- 「男性がプールサイドで手にチップスを見せている」
- 「男性が書斎でハンフを着て本を読んでいる」
複数の被写体がいても、それぞれのアイデンティティが一貫して維持されると同時に、自然に相互作用する様子が表現されています。人物と動物、あるいは複数の人物が同じシーンに登場させることも可能です。
音声駆動ビデオカスタマイズ
HunyuanCustomは業界初となる音声駆動人物カスタマイズも実現しています。人物の参照画像、シーン記述、そして音声データを入力として、指定した人物が特定のシーンで与えられた音声に合わせて話す動画を生成できます。
公式サイト例:
- 「着替え室にいる女性が口紅を持ち、それを試し、紹介している」
- 「パン屋で女性がケーキを持って紹介している」
- 「古い町の古代の橋のそばで、女性が琴を弾き、歌う」
- 「中国の明王朝の壮大な宮殿で、男性が力強いスピーチを行う」
- 「店のカウンターで、男性が機械式時計を手に持って紹介している」
これらの例では、音声のタイミングに合わせた自然なリップシンクと表情変化が実現されています。話者の感情や音声の強弱に応じた表情の変化も再現されるため、よりリアルな印象を与えます。
動画駆動ビデオカスタマイズ
最後の主要な機能は、既存の動画を基にした被写体の置き換えです。ソース動画と置換したい人物の参照画像を入力として、元の動画の動きや環境をそのまま保持しながら、被写体だけを指定した人物に置き換えた動画を生成します。
用途例:
- 既存動画の人物を指定画像の人物に置き換え
- 動画の動きや環境は保ちつつ被写体のみ変更
- アニメーション動作の転送
この機能により、例えば特定のダンス動画の踊り手を別の人物に置き換えたり、映画のシーンの出演者を変更したりすることが可能になります。元の動画の動きの特性はそのままに、新しい人物の特徴を反映した動画が生成されます。
他のモデルとの比較
HunyuanCustomは様々な定量的指標において、最先端の他のオープンソースおよびクローズドソースモデルを上回るパフォーマンスを示しています。公式論文に掲載されている比較データを見てみましょうぴょん。
性能指標
HunyuanCustomは以下の指標で評価されています:
- Face-Sim(顔の類似度): 0.627(最高)
- CLIP-B-T(テキストとビデオの一致度): 0.306
- DINO-Sim(ビジュアル一貫性): 0.593(最高)
- Temp-Consis(時間的一貫性): 0.958(上位)
- DD(細部の詳細度): 0.71
競合モデルとの比較
HunyuanCustomは以下の主要モデルと比較されています:
- VACE-1.3B (Face-Sim: 0.204, DINO-Sim: 0.569)
- Skyreels (Face-Sim: 0.402, DINO-Sim: 0.579)
- Pika (Face-Sim: 0.363, DINO-Sim: 0.485)
- Vidu2.0 (Face-Sim: 0.424, DINO-Sim: 0.537)
- Keling1.6 (Face-Sim: 0.505, DINO-Sim: 0.580)
- Hailuo (Face-Sim: 0.526, DINO-Sim: 0.433)
特に顔の類似度(Face-Sim)の指標では、HunyuanCustom(0.627)は次点のHailuo(0.526)を大きく上回り、もっとも低いVACE-1.3B(0.204)の約3倍という驚異的な数値を示しています。これは参照画像と生成された動画の顔の特徴がいかに正確に保持されているかを示す重要な指標です。
また、ビジュアル一貫性(DINO-Sim)もトップクラスであり、動画全体を通してビジュアルの一貫性が高く維持されていることを示しています。
時間的一貫性(Temp-Consis)の0.958という数値も、フレーム間の安定性が非常に高いことを表しており、ちらつきや不自然な変化が少ない滑らかな動画が生成されていることを示しています。
まとめと今後の展望
HunyuanCustomは、カスタマイズされたビデオ生成の分野に革命をもたらす可能性を秘めたモデルです。被写体の一貫性維持とマルチモーダル入力の組み合わせにより、従来のモデルでは困難だった多様なカスタマイズが可能になりました。
HunyuanCustomの意義
- 被写体の一貫性: 動画全体を通して人物や動物の特徴を正確に維持
- マルチモーダル対応: テキスト、画像、音声、動画という4つの入力モダリティを柔軟に組み合わせ
- 多様な使用例: 単一被写体、複数被写体、音声駆動、動画駆動といった様々なシナリオに対応
- 高度な統合アーキテクチャ: 各種専門モジュールの効果的な連携による優れた生成品質
AIビデオ生成の未来
HunyuanCustomのような技術の進化は、AIによる動画生成の可能性を大きく広げることになります。特に以下の分野での応用が期待されますぴょん:
- パーソナライズドコンテンツ: ユーザー自身や指定した被写体を主人公にした動画コンテンツの生成
- 教育・トレーニング: カスタマイズされた講師によるパーソナライズされた教育コンテンツ
- マーケティング: 多様な顧客層に合わせたカスタマイズプロモーション動画
- エンターテイメント: ユーザーが指定した俳優やキャラクターによる動画創作
ただし、これらの技術発展に伴い、ディープフェイクなどの悪用を防ぐための倫理的枠組みや法的規制の必要性も高まっています。テンセントの研究チームもこの点を認識しており、責任ある利用のためのガイドラインを提供しています。
今後は、さらなる画質の向上、より長い動画の生成、より複雑なシナリオへの対応など、多くの技術的課題が克服されていくことでしょう。HunyuanCustomは確かに大きな一歩ですが、AIビデオ生成の旅はまだ始まったばかりです。
以上が「うさぎでもわかるHunyuanCustom」の解説です。革新的なAI技術がどんどん登場する中、これからもわかりやすく最新技術を紹介していきますので、どうぞお楽しみにぴょん!
Discussion