🤖

Stability AIのstable-diffusion-2-1とstable-diffusion-xl-base-1.0を比較する。

2023/11/05に公開

はじめに

Stability AI の stable-diffusion-2-1 と stable-diffusion-xl-base-1.0 を比較する。

stable-diffusion-2-1

https://huggingface.co/stabilityai/stable-diffusion-2-1

stable-diffusion-xl-base-1.0

https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

私の PC のスペック[1]

  • i7 13700K
  • 3090 24GB
  • DDR5 128GB

stable-diffusion-2-1

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-2-1", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")
pipe.to("cuda")

prompt = ["A photo of a cat", "A photo of a dog"]

images = pipe(prompt)['images']
images[0].save("cat.png")
images[1].save("dog.png")

大体 7GB ぐらいメモリを消費した。

cat dog

たまたま悪い画像になってしまった。何回も試せばもっと良い画像が出てくる。

stable-diffusion-xl-base-1.0

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")
pipe.to("cuda")

prompt = ["A photo of a cat", "A photo of a dog"]

images = pipe(prompt)['images']
images[0].save("cat.png")
images[1].save("dog.png")

大体 15GB ぐらいメモリを消費した。

cat dog

こちらは何度やっても綺麗な画像が出てくる。

おわりに

初めて画像の生成系 AI を試した。ローカルでこのレベルの画像が出力されるのであれば、相当使いやすい。モデルとしては、確かに stable-diffusion-xl-base-1.0 の方が stable-diffusion-2-1 より良い画像が出てくるが、そこまで変わらないかな。

脚注
  1. https://zenn.dev/derbuihan/articles/928ae5f279afbc ↩︎

Discussion