📑

ControlAVideoをgoogle colabで試してみた。

2023/07/06に公開

ContorlAVideoとは

Diffusion modelを用いたText2Videoです。
https://github.com/Weifeng-Chen/control-a-video/tree/main

リンク

Colab
github

準備

Google Colabを開き、メニューから「ランタイム→ランタイムのタイプを変更」でランタイムを「GPU」に変更します。

環境構築

インストール手順です。

!git clone https://github.com/Weifeng-Chen/control-a-video.git
!pip install diffusers==0.14.0 transformers accelerate xformers decord einops

推論

(1)推論

%cd /content/control-a-video
!python inference.py --prompt "a bear walking through stars, artstation" --input_video bear.mp4 --control_mode depth

サンプルにあるクマの動画を変換してみます。

(2)結果の確認

# https://qiita.com/yusuke_s_yusuke/items/9190df94094ab0d98154
import IPython


out_filename = '/content/control-a-video/demo.gif'
IPython.display.Image(out_filename, format='png')

独特なスタイルですが上手くいってます。

最後に

今回は新しいtext2videoのdiffusion modelであるControl-a-videoを試してみました。最近text2videoも波が来ているので色々試して自分がやりたいこととその適性を見極めていきたいところです。

今後ともLLM, Diffusion model, Image Analysis, 3Dに関連する試した記事を投稿していく予定なのでよろしくお願いします。

Discussion