StableDiffusionやMidjourneyでよく出てくる用語まとめ
はじめに
この記事ではStableDiffusionを利用する際によく出てくる用語をまとめました。
それぞれの用語には見出しをつけてあるので、気になる用語には目次からジャンプできます。
基本用語
prompt(呪文)
StableDiffusionに書いてほしいイラストをインプットする為のテキスト。
主にイラストの構図、シチュエーション、画風を決めるために使用する。
Negative Prompt
StableDiffusionに書いてほしくない画像をインプットする為のテキスト。
seed
画像作成時に使用するパラメータ。同じseed値を使うと同じ画像が作成される。
正確には画像作成時の元データとして作成されるノイズ画像を作る時に使用する初期値。
Diffusion Model(DDPM)
"拡散モデル"と呼ばれる機械学習の種類の一つ。Denoising Diffusion Probabilistic ModelからDDPMと表記されることもある。
seedで決められたノイズで作られた画像を作成し、それを元にpromptに従った画像生成を行う機械学習による画像作成の手法。
Model
AIにおける脳みその部分。画像生成の精度や画風などに大きく影響する。
waifu-diffusionやjapanese-stable-diffusuion等のモデルがあり、モデルによって2次元に強いアートに強い等の特色がある。拡張子が.ckptのもの。
画像生成手法関連
Text-to-Image(txt2img)
promptだけをベースに画像を出力する手法。
一番スタンダードな手法のため使いやすいが、構図の細かい指定ができないため狙った通りの構図にすることは難しい。
Image-to-Image(img2img)
インプット用の下書き画像をpromptを使って画像を出力する手法。
インプット画像で構図を指定することができるので狙った構図が出しやすい。
In-painting
インプット用の画像とマスク画像、promptを使って画像を出力する手法。
書き換えてほしい部分だけを指定して書き換えることができるので、画像の一部だけを修正したい時に使う際に利用することが多い
Out-painting
インプット画像の外側を描く手法。既存の画像を枠外に拡張して広域の風景を書くことができる。
Paint-by-example
in-paintingのpromptをサンプル画像で代替する手法。
インプット画像とマスク画像、サンプル画像を使って画像が出力できる。
パラメータ関連
Guidance Scale
promptの強さを決める値。高いほどpromptの内容に忠実に従うような動きをするが、promptの内容に矛盾があると無理やり絵を書くので絵が破綻しやすくなる。
Strength
Image to Imageで使用する値。値が低いほど元の絵の意匠が残る。数値の度合いは実際に試してみた方のブログが非常に分かりやすいです。
モデル拡張関連
DreamBooth(FineTuning)
学習済みのModelに数枚の画像を追加で学習させることで、最後に追加した画像に特化したModelを新たに作成する手法。
いらすとやをFine Tuningしてすべてのアウトプットをイラストや風にするなどができる。
参考リンク
Textual Inversion
学習済みのModelに対して新しいPromptを覚えさせる手法。
FineTuningと似ているが、TextualInversionは名前の通り新しいPromptを覚えさせるだけなので、新しく作ったPromptを使わない限りはアウトプットは変わらない。
学習コストが低く済むので、ローカルPCでも扱いやすい。
団体やサービス
HuggingFace
機械学習に必要なライブラリやツール、コミュニティを運営するアメリカの企業。
modelをダウンロードする際などにお世話になる。
StabilityAI
Dtable Diffusionを運営しているイギリスのスタートアップ企業。
中の人のEmadさんがStable Diffusion関連のリリースをTwitterで教えてくれる
Lexica
promptの検索サービス。promptの作り方に迷った時に見るサイト。
まとめ
いかがだったでしょうか?今回はStableDiffusionなどで使用する単語で分かりづらいものをまとめました。追加で解説してほしい単語、誤記や解説誤りがあれば是非コメントいただけますと幸いです。
AIイラスト周りは日々進化しており、新しい用語が次々と出てくるのでこの記事も用語の追加に合わせて随時更新していきたいと思います。
Discussion