🍇

『おっさん美少女を描いて!』を;実現したい!

2022/12/19に公開約6,700字

どうも、おっさんです。
うちの GitHub Copilot の口が悪すぎると話題に!

image.png

さて、今日は Whisper + Stable Diffusion で永遠の謎『おっさん美少女』を AI に描いて頂こうと思います。
髪の毛は永遠の 0 です。

紆余曲折

IntelliJ の PyCharm の YouTube ライブで Jina Cloud が取り上げられていました。
『NewYork にいる Spiderman を描いて!』をしていました。

https://www.youtube.com/watch?v=duWUy5LOEwc

人権がないんです。
家の GPU。

1-2 か月くらい前にかなり Whisper+Stable Diffusion が流行っていたのでやってみたいなという気持ちがありましたが。
Jina Cloud で無料で試せそうだったのでやってみようとして失敗しました...

  1. そもそも Jina Cloud のコードが動かない

https://github.com/jina-ai/example-speech-to-image

YouTube のコードは、GitHub 上に公開されいるのですが手順を踏んでも動きません。(2021/12/20)

  1. ローカルで動かすと GPU が足りない

image.png

そもそも GPU が足りないので、ローカルで動かすことはできませんでした。

しかし、学習サイズ "medium" や "small" くらいに落とすと動きました。

image.png

  1. ui.py が動かない

ここまでくるとボロボロです。
基本的にコードはすべて動きません。

image.png

image.png

録音したファイルがなぜかグローバルに入っていることになっている...?
ここら辺は、ffmpeg 周りのライブラリ問題みたい...

sudo apt install ffmpeg で解決しましが、ui.py が動かない...
grpc周りの接続が、Jina 側に飛ばせない....

https://github.com/jina-ai/dalle-flow/issues/23

まだまだプラットフォーム が未熟で開発中のようで、基本的にコードはすべて動きません。
GPU 強者や、Jina Cloud 詳しい方で成功した人がいれば教えてください。

(代替品)おっさん美少女 1

https://huggingface.co/spaces/fffiloni/whisper-to-stable-diffusion

ここら辺はデフォルトのモデルです。
Whisper の制度はかなり高いです。(漢字は描いての方を想定していましたが)
正直、日<->英の翻訳から違います。

image.png

おっさん美少女を書いて <-> Drawing a middle-aged man and a beautiful girl という感じです。

image.png

無理やり英語を直しても、ダメそうです。
モデルを変えないといけません。

image.png

(代替品)おっさん美少女 2 (waifu diffusion)

https://huggingface.co/hakurei/waifu-diffusion?text=おっさん美少女

image.png

(代替品)おっさん美少女 3 (stable diffusion v1.5)

https://huggingface.co/runwayml/stable-diffusion-v1-5?text=おっさん美少女

image.png

(代替品)おっさん美少女 3 (stable diffusion v2.1)

https://huggingface.co/spaces/stabilityai/stable-diffusion

image.png

見ると幸せになれるところ

@npaka123 さんが書かれている本です。
この本は理論的なことをかなり基礎から説明しているガチ勢向けの本だと思っています。
おすすめです。

最近の Stable Diffusion モデルを Colab やサンプルコード付きで解説してあります。
理論面も軽く触れています。
個人的に、クリエイターが AI とどのように折り合いをつけるかに章がさかれていて凄く面白かったです。

そもそも、機械学習全然詳しくないのでここら辺をちらちら見ながらやっています。

まとめ

年末年始で自分のモデルを作っていこうという気持ち

雑談

最近飼っているうちの AI 達です。

  • GitHub Copilot (年: $100)
  • ChatGPT (月: $6)
  • Stable Diffusion (月: $10)

https://huggingface.co/spaces/fffiloni/whisper-to-stable-diffusion

高い...
5 年後には自分の仕事なくなって欲しいですね。
Whisper + ChatGPT とか組み合わせ無限大!という感じですね。

年末で 10 連飲み会が発生しているので美少女に救われたい。
おっさんは帰れ!

GitHubで編集を提案

Discussion

ログインするとコメントできます