📑
ControlAVideoをgoogle colabで試してみた。
ContorlAVideoとは
Diffusion modelを用いたText2Videoです。
リンク
準備
Google Colabを開き、メニューから「ランタイム→ランタイムのタイプを変更」でランタイムを「GPU」に変更します。
環境構築
インストール手順です。
!git clone https://github.com/Weifeng-Chen/control-a-video.git
!pip install diffusers==0.14.0 transformers accelerate xformers decord einops
推論
(1)推論
%cd /content/control-a-video
!python inference.py --prompt "a bear walking through stars, artstation" --input_video bear.mp4 --control_mode depth
サンプルにあるクマの動画を変換してみます。
(2)結果の確認
# https://qiita.com/yusuke_s_yusuke/items/9190df94094ab0d98154
import IPython
out_filename = '/content/control-a-video/demo.gif'
IPython.display.Image(out_filename, format='png')
独特なスタイルですが上手くいってます。
最後に
今回は新しいtext2videoのdiffusion modelであるControl-a-videoを試してみました。最近text2videoも波が来ているので色々試して自分がやりたいこととその適性を見極めていきたいところです。
今後ともLLM, Diffusion model, Image Analysis, 3Dに関連する試した記事を投稿していく予定なのでよろしくお願いします。
Discussion