🐙

HunyuanVideoをVRAM6GBで試そうとしたら違うモデルを使ってしまった件

2025/01/03に公開

HunyuanVideoは、ComfyUIを使うとVRAM6GBでも動画生成できると知り、色々検索して試行錯誤していました。
でも私は、結果的に間違えたものを使ってしまったようです。

まず私は、HunyuanVideoを試そうと見つけたリポジトリは、こちらです。
https://github.com/Tencent/HunyuanDiT
よく読んだから中国語で使える画像生成のリポジトリのようです。

試行錯誤してVRAM6GBでシステムのメモリが16GBのRTX3060laptopを搭載したノートパソコンで、画像生成できたので、記録したいと思います。

私は、Windows11で仮想環境を外付けのSSDに作り試しました。
でも一部のモジュールは、パソコン本体のCドライブにインストールされてしまい戸惑いました。

手順を整理しました

こちらに書かれている内容を、試しました。
https://github.com/Tencent/HunyuanDiT/tree/main/lite

仮想環境を作ります
Dドライブに、Hunyuanというディレクトリがると想定します。

cd D:\Hunyuan

仮想環境を作ります。

python -m venv venv

仮想環境をアクティブにします。

.\venv\Scripts\activate

リポジトリのクローンを作ります。

git clone https://github.com/Tencent-Hunyuan/HunyuanDiT-v1.2-Diffusers-Distilled.git

クローンしたディレクトリに、移動します。

cd HunyuanDiT-v1.2-Diffusers-Distilled

必要なパッケージをインストールします。

pip install -U bitsandbytes
pip install git+https://github.com/huggingface/diffusers
pip install torch==2.0.0

不足していたパッケージ

PyTorch バージョンのインストール
リポジトリに書かれているコードがエラーになり、インストールできませんでした。

pip install torch==2.0.0

そのため公式サイトからインストールしました。
https://pytorch.org/get-started/locally/

diffusersがパソコン本体に、インストールされてしまうので、どこにインストールされたか、確認が必要でした。

pip show diffusers

仮想環境のpipを使うことを明示して、インストールしました。

.\venv\Scripts\python.exe -m pip install git+https://github.com/huggingface/diffusers

その他足りないパッケージをインストールしました。
この他に、一つあったのですがメモを忘れてしまいました。
適宜エラーを見て、インストールしてください。

pip install transformers
pip install loguru
pip install accelerate>=0.26.0
pip install sentencepiece
pip install -U bitsandbytes

最終的なパッケージのリスト

 pip list
Package            Version
------------------ ------------
bitsandbytes       0.45.0
certifi            2024.12.14
charset-normalizer 3.4.1
colorama           0.4.6
filelock           3.16.1
fsspec             2024.12.0
huggingface-hub    0.27.0
idna               3.10
importlib_metadata 8.5.0
Jinja2             3.1.5
MarkupSafe         3.0.2
mpmath             1.3.0
networkx           3.4.2
numpy              2.2.1
packaging          24.2
pillow             11.1.0
pip                24.3.1
PyYAML             6.0.2
regex              2024.11.6
requests           2.32.3
safetensors        0.4.5
setuptools         75.6.0
sympy              1.13.1
torch              2.5.1+cu124
torchaudio         2.5.1+cu124
torchvision        0.20.1+cu124
tqdm               4.67.1
typing_extensions  4.12.2
urllib3            2.3.0
zipp               3.21.0

デモのコードを実行

リポジトリに書かれているデモの実行ですが、私はWindowsのpowershellで行ったので、工夫が必要でした。

元のコード

model_id=Tencent-Hunyuan/HunyuanDiT-v1.2-Diffusers-Distilled
prompt=一个宇航员在骑马
infer_steps=50
guidance_scale=6
python lite/inference.py ${model_id} ${prompt} ${infer_steps} ${guidance_scale}

今回の環境に合わせたコード

$env:model_id="Tencent-Hunyuan/HunyuanDiT-v1.2-Diffusers-Distilled"
$env:prompt="一个宇航员在骑马"
$env:infer_steps=50
$env:guidance_scale=6

python .\lite\inference.py $env:model_id $env:prompt $env:infer_steps $env:guidance_scale

終わったら、仮想環境を終了します。

deactivate

実行して生成した画像

デモのコード

私が英語のプロンプトで試して生成した画像

ComfyUIでHunyuanVideoを使う

ComfyUIでHunyuanVideoを使う内容は、別の記事で書きたいと思います。

Discussion