💃

ComfyOnline で 'いらすとやさん' は踊ってくれるのか？

2025/01/27に公開

 この記事でわかること
 ComfyOnline が向いている人ローカル環境で ComfyUI の設定とか面倒、既製品で良い

ComfyUI-Exampls の workflow を試したい
フルスペックで動画生成したいが、先立つものがない
ローカルPC に巨大な safetensors を保存する storage がない
立場的に 'Comfy 知りません' では済まされなくなった

 ComfyOnline が向かない人Workflow やノード調整の取説が必要
Flux や Hunyuan のカスタムモデルを使いたい
手動でカスタムノードを導入したい
GPU が NVIDIA 4090 では不満、H100 が欲しい
生成した画像動画は、自分で削除したい
ボタンの反応は、3分待てない

 ComyOnline とはhttps://www.comfyonline.app/ja
Online で Comfy の workflow を実行できます。
既に node が組み上がった workflow 群から、やりたいことを選択するだけ。

Hunyuan, LTX, Cosmos など、定番の workflow は揃えてあります。

ComfyUI-Exampls の workflow はアップロードするだけで、手間なく動きます。
NVIDIA 4090 24GB の VRAM が使えて、費用は使用した時間課金です。

$10 で 12000 クレジット、0.62 クレジット/ sec です。ジジイの場合、6000 クレジットで 1日遊べました。
Workflow の動かし方やテキスト入力、ノード調整に関する説明はありません。Workflow を Cursor などに読み込み、AI アシストが吉です。
自家製ノード組み込みなど、ノード自体のカスタマイズはできません。カスタムモデルも使えません。
生成した動画は、https://storage.googleapis.com/image_asset/<User Hash>/<task Hash>/fileという形式で、Google storage に保存されますが、削除する方法がわかりません。生成物にはプライベートのみアクセス可能とありますが、著作権や肖像権にかかわる生成はご法度です。生成物の直リン公開はやめ、右クリックでダウンロードしたものを使いましょう。
動画生成に時間が必要なのはわかるのですが、クレジット購入も反応が遅いです。

ボタンを押して、3分経った頃に SMS の認証番号が届きます。一瞬 '高齢者を騙す詐欺サイトか' とあせりました。

 プロンプトの準備'いらすとやさん' の女性に、動画AC のダンスを踊ってもらいます。いずれもフリー素材を有難く使わせていただきます。
踊っていただく女性（ターゲット）

踊っていただくダンス（ソース動画）

プロンプトには、以下の 3つの英文プロンプトが必要です。Google AI studio の Create Prompt で作成します。

a. ターゲットをどのような体位でも正確に再現できるプロンプト

b. ソース動画の人物の表情や感情、動画の背景を正確に再現できるプロンプト

c. ソース動画の人物の動きを時間軸に沿って正確に再現できるプロンプト
'Type something' の欄に、画像と動画を D&D して、願い事を書いて Run するだけです。

Google AI Studio
result

 ComfyOnline の workflow で'いらすとやさん' は踊ってくれるのでしょうか？
 a. MimicMotion Photo Dance
https://github.com/Tencent/MimicMotion

ソース動画の動きを棒人間で抜き出して、ターゲットの特徴を維持しながら再構築します。プロンプト不要ですが、各ノードを細かく調整する必要があります。MimicMotion の開発元は Tencent で、Hunyuan-Video に先駆けて公開されました。生成時間は 285sec です。

Settings
Movie

いらすとやさんの特徴的な画風は失われています。ソース動画の人物に引っ張られている感じです。モーションだけ再現するので、背景画像は別途用意する必要があります。

 b. LTX-Video Video to Video
https://github.com/Lightricks/LTX-Video

LTX-Videoは、従来のdiffusionモデルを拡張し、時間的一貫性、高解像度出力、柔軟な制御、効率的な計算、スタイル転送、長時間動画の生成など、動画特有の課題を大幅に改善しました。Workflow では長時間動画を生成するため、frame_load_cap を 300 に上げましたが、他の設定はそのままです。ターゲット再現には先ほどのプロンプトa を使用しました。生成時間は 84.6sec でした。

Settings
Movie

プロンプトから、いらすとやさんの特徴的な画風を再現するのは難しいようです。LTX v2v ではソース動画の人物だけ再描画するので、背景は維持されます。楽しくダンスする雰囲気は伝わります。

 c. Hunyuan ip2v
https://github.com/Tencent/HunyuanVideo

Hunyuan Videoは、130億のパラメータを持つ強力なオープンソース動画生成モデルであり、3D VAEを用いた効率的なデータ処理と、空間的および時間的な情報の統合によって、非常に高品質な動画を生成することが可能です。ターゲットは画像を指定するので、プロンプトa は不要です。動画生成にはプロンプトb, c を使用しました。プロンプトが 600 トークンになると、GPU で処理する計算量も莫大で、NVIDIA 4090 でも解像度512×512 97 frames を超えると OOM 頻発でした。また最初にターゲットが登場する部分に<image>タグを埋めて、動画内のキャラクターとして指定する必要があります。生成時間は 255.3sec でした。

Settings
Movie

画像でターゲットを指定しても、いらすとやさんの特徴的な画風の再現は困難でした。ただし、いらすとやさんの雰囲気を継承した女の子が登場しました。にこやかにダンスしていただけました。

 d. HunyuanVideo video to video
Hunyuan video でも、b. LTX-Video v2v と同じことを試みました。しかしながら、期待するような動画は生成できませんでした。生成時間 223.0sec。

Settings
Movie

ソース動画をプロンプトで編集制御するのは、思うようにいかず難しい。なんだかとてもシュールです。

 e. Cosmos image to video
https://github.com/NVIDIA/Cosmos

NVIDIA Cosmosは、物理AI向けに設計された動画生成AI で、20万時間の動画データを基に、テキストや画像から物理的にリアルな動画を生成します。特にロボティクスや自動運転のシミュレーションに強みを持ち、物理法則を考慮した生成が可能です。テキスト入力を行う String Function の上段は、動画の人物の表情や感情、および動画の背景用のプロンプトb を、中段には、動画の人物の動きを時間軸に沿って再現するプロンプトc を入力します。下段は、AI が自動で入力します。プロンプトのトークン数が 600 トークンほどになるので、Florens2 Image2Prompt ノードの max_new_tokens の値を 606 に設定しました。生成時間は 97.1sec でした。

Settings
Movie

登場人物はいらすとやさんモドキですが、ダンスというより笑いながら殴りに来てます。最後、殴られてスマホ落としました。

 f. Cosmos text to video
https://zenn.dev/gda/articles/dffcde8bb0bc7a
前回、ローカルPC の VRAM 11GB で生成した Cosmos robot があまりにも不甲斐なかったので、workflow を ComfyOnline にアップロードして NVIDIA 24GB で再生成してみました。左は前回使用した VRAM 11GB 用の省略プロンプト、右は本来 NVIDIA が提供するフルプロンプトで生成した robot です。

省略プロンプト
フルプロンプト

NVIDIA 24GB で再生成すると画質は素晴らしいです。ただ、なにか動きがぎこちないような、、物理シミュレーション専門、、う～ん。

 まとめ新しい動画生成AI が発表されたら、ComfyOnline でさらっと予習して、気に入ったらローカルPC で環境を作るのも一手かと。
ComfyOnline で 'いらすとや' さんにご陽気に踊っていただくのは、難しかったです。

 番外編gear machine@AI さんや pikurusu1234 さんの サイトを拝見すると、MusePose ならご陽気に踊っていただけるかも思いました。
https://x.com/grmchn4ai
https://note.com/pikurusu1234/n/n339fb1464f97
!Currently, it takes 16GB VRAM to run on 512 x 512 x 48 and takes 28GB VRAM to run on 768 x 768 x 48. However, it should be noticed that the inference resolution would affect the final results (especially face region).！
ということで、 ジジイの VRAM 11GB では まともに動きません。ComfyOnline でもカスタムノードのため動きません。低VRAM の無理やり微調整でいけるでしょうか。
https://github.com/TMElyralab/MusePose
https://github.com/TMElyralab/Comfyui-MusePose

微調整 1
微調整 2

微調整 3

この記事でわかること

ComfyOnline が向いている人

ComfyOnline が向かない人

ComyOnline とは

プロンプトの準備

ComfyOnline の workflow で'いらすとやさん' は踊ってくれるのでしょうか？

a. MimicMotion Photo Dance

b. LTX-Video Video to Video

c. Hunyuan ip2v

d. HunyuanVideo video to video

e. Cosmos image to video

f. Cosmos text to video

まとめ

番外編

Discussion