週刊AI神絵師 2022/10/23~10/29 - AI神絵師本発売開始 - ネガティブワード手法の分析が進む
2022年10月23~29日のStable Diffusion関係の出来事ログです。進化成長が起きるスピードが速すぎるので、後で時系列がわからなくなることを避けるために国内のブログでの解説を中心に紹介しています。
何かあれば追記していきます。『私の記事も紹介してくれ~』というコメントは歓迎です(Twitter@o_obへどうぞ)。
技術面:TrinArt characters V1
TrinArt V1をAUTOMATIC1111 + Google Colabで手早く動かす
ウチダマサトシさん 2022年10月18日 18:14
「Trinart Stable Diffusion」は、「Stable Diffusion」を二次元イラストのデータセットでファインチューニングして作られた画像生成AIです。Twitterボット「とりんさまAI」@trinsama ( https://twitter.com/trinsama ) で学習しているようです。
naclbit/trinart_characters_19.2m_stable_diffusion_v1 (HuggingFace)
trinart_characters_19.2m_stable_diffusion_v1 は、Stable Diffusion v1 ベースのモデルで、約 1920 万のアニメ/マンガ スタイルの画像 (プレロールされた拡張画像を含む) と、約 50,000 の画像による最終的な微調整によってトレーニングされています。 このモデルは、SDv1 の指定されたモデル仕様内で、芸術的なスタイルの多様性と解剖学的品質の間のスイート スポットを探しています。これは、AI Novelist/TrinArt サービスで 9 月上旬から 10 月 14 日までリリースされたものと同じバージョン 1 モデルです。現在、さらなる改善と解剖学的安定化のために、TrinArt サービスで新しいデリダ モデルを実験しているそうで、 それまでの間、この実際のサービスでテストされた「キャラクター v1」 をお楽しみください、とのこと。
ほぼ完璧なNMKD Stable Diffusion GUIに関する日本語マニュアルが登場
「NMKD Stable Diffusion GUI」ききよさん 2022年10月28日
https://note.com/kikiyo/n/nc2b9c9568102
やりたいこと:写真を取り込んで、その人物を二次元キャラに落とし込む、または指定した等身のデッサン人形に置き換えて構図の参考にする…というNMKD Stable Diffusion GUIを理解するために咀嚼した記事。「元素法典」に出てくる、プロンプトの足し算引き算なども解説されています。
同じようなアプローチでより、ネガティブワードの使い方に絞った記事も数多く公開されています(プロンプト工学、としてまとめます)。
プロンプト工学:ネガティブワードの仕組みと使い方が共有される
NovelAI「元素法典」v1.5の日本語訳が公開される
まるちくりえいたあ / BaskMedia (https://twitter.com/baskmedia) さん 2022年10月28日
「元素法典」とは、NovelAI中国語圏コミュニティ(Chinese Novel AI Tieba Community)により作成されたNovelAIで使用されるタグ・プロンプトを例文としてまとめた書物です。
NovelAIに対する視点と、簡単に美しい結果が得られてしまうので賛否両論かもしれませんが、この日を境に日本の利用者のベースラインが引きあがったのは間違いありません。
【AI画像生成の基本技】「短くて効率的な人体構造抑制ワード(独自研究)」
でべろぱ さん 2022年10月26日
NovelAIにおけるネガティブワード指定「limb」で不完全な肢体を軽減させるテクニックです。
作品面:透明な鎧
らけしで(@lakeside529)さん 2022年10月27日
現実には無い「半透明な鎧」を描いてほしいなと思って、呪文を試行錯誤しながら生成された絵の数、3000枚以上。なかなか素晴らしいです。Twitter画像のALTでプロンプトそのものが埋め込まれています。
海外:キャラクターに強そうな生成モデル「Re-Imagen」
10月19日、Google Brainの研究者Wenhu Chen (@WenhuChen)による論文論文「Re-Imagen」が公開されました。
【論文概要から】
テキストから画像への変換に関する研究は、大規模な画像テキストデータを用いて学習させた拡散モデルや自己回帰モデルによって、多様で写実的な画像を生成することに大きな進歩を遂げてきた。しかし、「犬」や「食べ物」のような一般的でないものの画像生成は困難である。この問題に対処するため、我々は、検索された情報を用いて、希少または未知の実体に忠実な画像を生成する生成モデル、Re-Imagen(Retrieval-Augmented Text-to-Image Generator;検索機能付きテキスト画像生成ツール)を発表する。Re-Imagenは、テキストプロンプトを与えると、外部のマルチモーダル知識ベースにアクセスして、関連する(画像とテキストの)ペアを検索し、それらを参照しながら画像を生成する。この検索ステップにより、Re-Imagenは言及された実体の高レベルの意味と低レベルの視覚的詳細に関する知識で補強され、実体の視覚的外観を生成する精度を向上させることができる。我々はRe-Imagenを(画像、テキスト、検索)の3つを含んで構築されたデータセットで訓練し、テキストプロンプトと検索の両方で接地するモデルを学習させる。さらに、テキストと検索の整合性のバランスをとるために、テキストと検索条件に対する分類器不要のガイダンスを交互に行う新しいサンプリング戦略を開発する。Re-ImagenはCOCO (FID = 5.25) とWikiImage (FID = 5.82) といった2つの画像生成ベンチマークにおいて、微調整を行わずに新しいSoTA FID結果を達成することができる。さらに、本モデルの能力を評価するために、複数の視覚領域において、頻度の高いものから稀なものまで、多様な実体の画像生成を評価する新しいベンチマークであるEntityDrawBenchを紹介する。EntityDrawBenchを用いた人間による評価では、Re-Imagenはフォトリアリズムにおいて最も優れた先行モデルと同程度の性能を示すが、特に頻度の低いエンティティにおいては、著しく忠実度が向上していることが示された。
既存のテキストから画像への生成モデルは、特定の人物、特定の映画のキャラクター、特定の犬などの非常に具体的なエンティティを生成するのが特に得意ではありません。
この論文では、この問題を解決するための検索強化トレーニング アプローチを提案しています。
モデルは外部データベースから取得するか、エンティティ/オブジェクトに関するより忠実な画像を生成するための参照としてユーザー入力を受け取ることができます。
ここでは、StarWars のキャラクター、食べ物、犬、ランドマークに関する画像をいくつか紹介します。 DreamBooth やその他の方法とは異なり、評価中に特定のコンセプトに合わせてモデルを微調整する必要はありません。それははるかに高速でメモリ効率が良いです。
モデルの公開はまだなさそうですが、これは検索機能付きテキスト画像生成ツールであり、ソーシャルな学習を実装しているようにも読めます。
特にキャラクターに注目する研究が出てくると、今後のこの分野の戦いはさらに熾烈になりそうですね。
出来事:「AI神絵師本」ついに10月28日 配信開始。特別生番組を企画。
「AIとコラボして神絵師になる 論文から読み解くStable Diffusion」白井暁彦 (著) > 本書は、今話題沸騰中のAIによる画像生成の仕組みや使い方について、中学生でも理解できることを目指し、わかりやすい説明で紹介した解説書です。難しい数式を全く使用せずにAI画像生成技術の最先端を科学コミュニケーターである著者がやさしい口調で解説しています。またより深く知識を得たい読者のために、Pythonでのサンプルコード、プロンプトの基礎や出力例、AI画像生成の法的な側面、実際の仕事で使ったユースケースも掲載。表紙イラストもAIで生成しており、担当イラストレーター・852話氏と著者の対談も掲載しています。先端技術を使いこなして、AI神絵師になるための「冒険の書」です!(出版社の書誌情報より)
出版社のポータル https://nextpublishing.jp/book/15689.html
印刷版予約URL https://ivtv.page.link/ap
Kindle版予約URL https://ivtv.page.link/ak
出版を記念して、VTuberよーへんさんが記念番組を企画してくださいました。
#AI神絵師本 「AIとコラボして神絵師になる論文から読み解くStable Diffusion」発売記念配信〜あなたは何を創るのか?
ご感想は #AI神絵師本 でいただけると幸いです
Discussion