Vtuber簡単に作れるかな
Obsidianに清書する前にこちらで雑記
AI界隈には疎いけどそろそろささっとVtuber作れるんじゃねーのと思ったので試してみる。
実際に配信するわけじゃないけどできるだけ手抜きで楽してやれるか挑戦。
絵をかいたりしたことないのでできるだけ省エネでやりたい。
必要そうなものはとりあえずこれくらいかな?
- 立ち絵、原画
- 動くモデル(2D or 3D)
- 配信ソフト(配信はしないのでこれはいらん)
ちょっと調べて可能性がありそうな省エネルートとしては3パターン
- 立ち絵を作って1枚の立ち絵を(talking-head-anime-3-demo)を使って動かす
- 立ち絵作ってlayerdividerでレイヤー分け、Live2Dでモデリング
- 金出して買う
まぁ3はあまり意味がないので1が一番楽そうだけどlive2Dも触ってみたいのでとりあえず1と2を並行で進めてみる。
なんにせよ立ち絵用意するところから。
(何にも知らんけどまぁ生成AI使えば行けるやろと楽観視してたところ)
WebUI Forge
とりあえず生成AI(WebUI Forge)が背景透過して作れるようなので試してみる(タダだったし)
-
https://github.com/lllyasviel/stable-diffusion-webui-forge
↑これに↓このイラスト生成が得意らしいモデルを使ってみたけどイメージ通りのイラストにならないのでちょっと保留 - https://civitai.com/models/261336?modelVersionId=295158
にじじゃーにー
日本語のプロンプト対応してるし月10ドルだったのでお試ししてみる
結構いい感じかな?1枚目エルデンリングのラニっぽくてお気に入りかわいい。
Web Forge
とりあえずgit clone
git clone https://github.com/pkhungurn/talking-head-anime-3-demo
書いている通りに環境構築していく(Anaconda入れたりライブラリ落としたり)
Python環境構築してなかったのでPythonをWindowsStoreからインストール
(この後ごちゃごちゃやったけどPythonは3.10系じゃないとだめだった。
3.12とかだとバージョンが合わなかった)
poetryをPoetryからインストールする
環境変数に両方パスを通す
とりあえずアプリが起動するところまではたどり着いたけどiOSが必要なので一旦保留
(iPhoneXRが安く手に入りそうだったので注文。届き次第続きへ)
layerdivider
ということでレイヤー分けの方を試す。
こっちはツール動かすまでがちょっと色々手間だった
google colabの方は画面起動すると504で落ちるのでローカルで試すことに
まずはツールを落としてくる
git clone https://github.com/mattyamonaca/layerdivider.git
手順通りに環境構築してシェルを動かしてみるとエラーに
CUDA_PATH is set but CUDA wasn't able to be loaded. Please install the correct version of CUDA and cuDNN as mentioned in the GPU requirements page (https://onnxruntime.ai/docs/reference/execution-providers/CUDA-ExecutionProvider.html#requirements), make sure they're in the PATH, and that your GPU is supported.
CUDAとcuDNNのかみ合わせが悪いようなので対応表を確認して組み合わせを試してみると
CUDA 12.2と cuDNN v8.9.7でOKだった。
CUDA:https://developer.nvidia.com/cuda-12-2-0-download-archive
cuDNN:https://developer.nvidia.com/rdp/cudnn-archive
※参考:CUDAのver切り替え:https://michyo.net/sempetit/install-cuda-multi-versions/
続き。
結局手順通りのAnaconda環境だと全然うまくいかなかったので
素のPythonとpipで環境を作っていく。
参考になったのが↓の3~10までをコマンドプロンプトから実行していくとアプリケーション起動まで完了
色々パラメータ試してみたもののきれいにレイヤー分割するのがなかなか難しい。
一番はパーツ毎に分けられるといいのだけれども
(これはもしかすると立ち絵の方があまりよくないか?色調変化が大きい絵の方がいいのかも)
Segment実行してからPSD実行したいけどそもそもSegmentがデフォルト値で全然計算が終わらない
CPUもGPUも全然使ってなさそうだけど
仕事終わってみてもまだ計算中だった
これ動いてなさそうだしコード追っていくしかないか
iPhone届いたのでtalking-head-anime-3-demoを試してみるとそこそこ動いた。
細かい顔のパーツごとの動きなんかは無理だけど一番省エネなのは生成AIで一枚絵作ってこれで動かすのが今のところ一番省エネでFAかな。