ComfyOnline で 'いらすとやさん' は踊ってくれるのか?
この記事でわかること
ComfyOnline が向いている人
- ローカル環境で ComfyUI の設定とか面倒、既製品で良い
- ComfyUI-Exampls の workflow を試したい
- フルスペックで動画生成したいが、先立つものがない
- ローカルPC に巨大な safetensors を保存する storage がない
- 立場的に 'Comfy 知りません' では済まされなくなった
ComfyOnline が向かない人
- Workflow やノード調整の取説が必要
- Flux や Hunyuan のカスタムモデルを使いたい
- 手動でカスタムノードを導入したい
- GPU が NVIDIA 4090 では不満、H100 が欲しい
- 生成した画像動画は、自分で削除したい
- ボタンの反応は、3分待てない
ComyOnline とは
- Online で Comfy の workflow を実行できます。
- 既に node が組み上がった workflow 群から、やりたいことを選択するだけ。
Hunyuan, LTX, Cosmos など、定番の workflow は揃えてあります。 - ComfyUI-Exampls の workflow はアップロードするだけで、手間なく動きます。
- NVIDIA 4090 24GB の VRAM が使えて、費用は使用した時間課金です。
$10 で 12000 クレジット、0.62 クレジット/ sec です。ジジイの場合、6000 クレジットで 1日遊べました。 - Workflow の動かし方やテキスト入力、ノード調整に関する説明はありません。Workflow を Cursor などに読み込み、AI アシストが吉です。
- 自家製ノード組み込みなど、ノード自体のカスタマイズはできません。カスタムモデルも使えません。
- 生成した動画は、
https://storage.googleapis.com/image_asset/<User Hash>/<task Hash>/file
という形式で、Google storage に保存されますが、削除する方法がわかりません。生成物にはプライベートのみアクセス可能とありますが、著作権や肖像権にかかわる生成はご法度です。生成物の直リン公開はやめ、右クリックでダウンロードしたものを使いましょう。 - 動画生成に時間が必要なのはわかるのですが、クレジット購入も反応が遅いです。
ボタンを押して、3分経った頃に SMS の認証番号が届きます。一瞬 '高齢者を騙す詐欺サイトか' とあせりました。
プロンプトの準備
'いらすとやさん' の女性に、動画AC のダンスを踊ってもらいます。いずれもフリー素材を有難く使わせていただきます。
- 踊っていただく女性(ターゲット)
- 踊っていただくダンス(ソース動画)
プロンプトには、以下の 3つの英文プロンプトが必要です。Google AI studio の Create Prompt で作成します。
a. ターゲットをどのような体位でも正確に再現できるプロンプト
b. ソース動画の人物の表情や感情、動画の背景を正確に再現できるプロンプト
c. ソース動画の人物の動きを時間軸に沿って正確に再現できるプロンプト
'Type something' の欄に、画像と動画を D&D して、願い事を書いて Run するだけです。
Google AI Studio | result |
---|---|
![]() |
![]() |
ComfyOnline の workflow で'いらすとやさん' は踊ってくれるのでしょうか?
MimicMotion Photo Dance
a.Tencent で、Hunyuan-Video に先駆けて公開されました。生成時間は 285sec です。
ソース動画の動きを棒人間で抜き出して、ターゲットの特徴を維持しながら再構築します。プロンプト不要ですが、各ノードを細かく調整する必要があります。MimicMotion の開発元はSettings | Movie |
---|---|
![]() |
![]() |
いらすとやさんの特徴的な画風は失われています。ソース動画の人物に引っ張られている感じです。モーションだけ再現するので、背景画像は別途用意する必要があります。
LTX-Video Video to Video
b.LTX-Videoは、従来のdiffusionモデルを拡張し、時間的一貫性、高解像度出力、柔軟な制御、効率的な計算、スタイル転送、長時間動画の生成など、動画特有の課題を大幅に改善しました。Workflow では長時間動画を生成するため、frame_load_cap を 300 に上げましたが、他の設定はそのままです。ターゲット再現には先ほどのプロンプトa を使用しました。生成時間は 84.6sec でした。
Settings | Movie |
---|---|
![]() |
![]() |
プロンプトから、いらすとやさんの特徴的な画風を再現するのは難しいようです。LTX v2v ではソース動画の人物だけ再描画するので、背景は維持されます。楽しくダンスする雰囲気は伝わります。
Hunyuan ip2v
c.Hunyuan Videoは、130億のパラメータを持つ強力なオープンソース動画生成モデルであり、3D VAEを用いた効率的なデータ処理と、空間的および時間的な情報の統合によって、非常に高品質な動画を生成することが可能です。ターゲットは画像を指定するので、プロンプトa は不要です。動画生成にはプロンプトb, c を使用しました。プロンプトが 600 トークンになると、GPU で処理する計算量も莫大で、NVIDIA 4090 でも解像度512×512 97 frames を超えると OOM 頻発でした。また最初にターゲットが登場する部分に<image>タグを埋めて、動画内のキャラクターとして指定する必要があります。生成時間は 255.3sec でした。
Settings | Movie |
---|---|
![]() |
![]() |
画像でターゲットを指定しても、いらすとやさんの特徴的な画風の再現は困難でした。ただし、いらすとやさんの雰囲気を継承した女の子が登場しました。にこやかにダンスしていただけました。
HunyuanVideo video to video
d.Hunyuan video でも、b. LTX-Video v2v と同じことを試みました。しかしながら、期待するような動画は生成できませんでした。生成時間 223.0sec。
Settings | Movie |
---|---|
![]() |
![]() |
ソース動画をプロンプトで編集制御するのは、思うようにいかず難しい。なんだかとてもシュールです。
Cosmos image to video
e.NVIDIA Cosmosは、物理AI向けに設計された動画生成AI で、20万時間の動画データを基に、テキストや画像から物理的にリアルな動画を生成します。特にロボティクスや自動運転のシミュレーションに強みを持ち、物理法則を考慮した生成が可能です。テキスト入力を行う String Function の上段は、動画の人物の表情や感情、および動画の背景用のプロンプトb を、中段には、動画の人物の動きを時間軸に沿って再現するプロンプトc を入力します。下段は、AI が自動で入力します。プロンプトのトークン数が 600 トークンほどになるので、Florens2 Image2Prompt ノードの max_new_tokens の値を 606 に設定しました。生成時間は 97.1sec でした。
Settings | Movie |
---|---|
![]() |
![]() |
登場人物はいらすとやさんモドキですが、ダンスというより笑いながら殴りに来てます。最後、殴られてスマホ落としました。
Cosmos text to video
f.
前回、ローカルPC の VRAM 11GB で生成した Cosmos robot があまりにも不甲斐なかったので、workflow を ComfyOnline にアップロードして NVIDIA 24GB で再生成してみました。左は前回使用した VRAM 11GB 用の省略プロンプト、右は本来 NVIDIA が提供するフルプロンプトで生成した robot です。
省略プロンプト | フルプロンプト |
---|---|
![]() |
![]() |
NVIDIA 24GB で再生成すると画質は素晴らしいです。ただ、なにか動きがぎこちないような、、物理シミュレーション専門、、う~ん。
まとめ
- 新しい動画生成AI が発表されたら、ComfyOnline でさらっと予習して、気に入ったらローカルPC で環境を作るのも一手かと。
- ComfyOnline で 'いらすとや' さんにご陽気に踊っていただくのは、難しかったです。
番外編
gear machine@AI さんや pikurusu1234 さんの サイトを拝見すると、MusePose ならご陽気に踊っていただけるかも思いました。
ということで、 ジジイの VRAM 11GB では まともに動きません。ComfyOnline でもカスタムノードのため動きません。低VRAM の無理やり微調整でいけるでしょうか。
微調整 1 | 微調整 2 |
---|---|
![]() |
![]() |
微調整 3 |
---|
![]() |
Discussion