📗

週刊AI神絵師 2022/10/30~11/5 - 元素法典 と AI神絵師本 がリリースされる

2022/11/22に公開

2022年10月30~11月5日のStable Diffusion関係の出来事ログです。

自分の書籍のリリースというタイミングなのですが、振り返ると非常にたくさんの出来事が起きた週でした。

社会面

pixiv「AI生成作品の取り扱いに関する機能をリリースしました」 10/31

https://www.pixiv.net/info.php?id=8728&lang=ja

先日お知らせしました、制作過程のすべて、もしくはほとんどをAIによって生成された作品(以下「AI生成作品」といいます)に関する機能を2022年10月31日にリリースしました。
AI生成作品の取り扱いに関するサービスの方針については、こちらのお知らせをご覧ください。
https://www.pixiv.net/info.php?id=8710

■機能改修
・投稿編集時にAI生成作品と設定できる機能の提供
・AI生成作品を検索時などにフィルタリングする機能の提供
・従来の作品とは分けた、AI生成作品のみのランキングの提供

上記の機能変更は必ずしも恒常的なものではなく、必要に応じて見直しや変更を行います。今後の対応については、利用規約やガイドラインの変更、pixivの各種機能変更等も含めてさらに検討してまいります。

とのことで、結局AI作品を分ける方向ではなく、タグをつける方向に持っていくようですね。
実際、上記の2つ目の項目「AI生成作品を検索時などにフィルタリングする機能の提供」は、「画像からAI作品を分類できる」という技術がないと難しいので、技術力が支えている感じはしますね(タグなのかもしれないけど)。

「ちちんぷい!(ちちぷい)」AIイラスト専用の投稿サイト (10/30)

https://www.chichi-pui.com/

AIイラスト専用の投稿サイト「chichi-pui」(ちちぷい)が10月30日にリリースされました。
画像生成AI「Novel AI Diffusion」などのAIが生成したイラストのみを投稿できるサイト。
運営者は個人で、Twitterアカウント「ちちぷい / AIイラストの専用投稿サイト」(@chi2pui)で発信されています。

技術面

Gigazine「画像が他の画像へ変化するまでの過程」を画像生成AI「Stable Diffusion」で生成できるスクリプト「Interpolate」の導入手順&使い方まとめ (11/3)

https://gigazine.net/news/20221103-stable-diffusion-img2img-interpolate/

画像生成AI「Stable Diffusion」には参考画像を指定して構図や雰囲気の似た画像を生成する「img2img」と呼ばれる機能が備わっています。そんなimg2imgを活用して「始まりの画像」と「終わりの画像」を指定するだけで両者の中間画像を生成できるスクリプト「Interpolate」がStable Diffusionの多機能UI「Stable Diffusion web UI(AUTOMATIC1111版)」向けに公開されていたので、実際に導入する方法や使い方をまとめてみました。

元素法典 The Code of Quintessence リリースされる 10/28

https://docs.qq.com/doc/DWGh4QnZBVlJYRkly

誰でも簡単にNovelAIで美しい絵が描けてしまうプロンプトテクニック集「元素法典」が公開されました。中国でも画像生成AIは人気であり、萌え絵を描く人がかなりの数いるという事がわかります。QQ Docs(日本で言うところのGoogle Drive)で、今でも更新が続いています。その後、日本語訳も登場します。

852話さんによる紹介 (10/28)

誰でも簡単に女神のように美しい初音ミクさんを出力できるpromptを公開します。と言ってもほぼほぼ元素法典のままで特殊なことをしていないのでこっちを参照したほうが良いです。 元素法典Ver. 20221023

https://twitter.com/8co28/status/1585864621742690304

852話 @8co28 さん (10/31)

https://twitter.com/8co28/status/1587004598899703808

「NovelAIっぽい絵」を「平面的なイラストっぽい絵」で出力する方法
同prompt同seedで実験
ネガティブプロンプトに「3d」を強調度合い変えて入れるだけです。
1枚目が何もなし
2枚目UC末尾に「3d」
3枚目UC末尾に「{{{3d}}}」
4枚目UC末尾に「{{{{{{3d}}}}}}」
AI 無編集
#NovelAIDiffusion #NovelAI

NovelAI Diffusion wiki 生成呪文(画風) (11/5)

https://w.atwiki.jp/novelaidiffusion/pages/27.html

元素法典によりMasterpieceが量産されすぎた結果、「若者のMasterpiece離れ」が起きている。画風研究は必須の課題であり、常に新しいものに挑まなければならない。

ということで「画風を特定絵師にする」挑戦をされております。物語シリーズ風,立体物風,なもり風,ゆずソフト風,リゼロ風,キルラキル風,閃乱カグラ,プロメア風,ごちうさ風,島田フミカネ風,カントク風,遊戯王風,崩壊風,まどそふと風,フロントウィング風,アニメ塗り風にする,minori風,CIRCUS風,Key風,まどマギ・マギレコ風,蒼樹うめ風,ディスガイア風,Fate風,グラブル風,ハルヒ風,デフォルメする,とあるシリーズ風,ヒロアカ風,ドット絵風にする,セーラームーン風,コードギアス風,なのは風,スプラ風,ダンガンロンパ風,色鉛筆デッサン風…また「回避したい画風」として,NovelAI顔,そして、クオリティが高くなるが画風が量産されやすい「masterpiece顔」について解説されています。

「AIに立ち絵を描かせてみよう」k1togamiさん (11/2)

https://note.com/k1togami/n/n4375e127693b

3Dアクションゲームを開発されている @k1togami さん が、NMKD Stable Diffusionを使って自分のゲームに利用するための絵をAIに描かせることができるかの実験の結果していらっしゃいます。

【画像生成AI】midjourneyがV4のαテスト開始 (11/5)

https://note.com/nemem/n/nedee609f6516

ねむえむさん @NeM_eM_ による、最新のMidjourney(MJ) V4のリリース翻訳。はるかに多くの知識 (生き物、場所など)、細部を正しく理解するのがはるかに優れている、より複雑なプロンプトを処理、複数のオブジェクト/複数のキャラクターのシーンに適している、イメージプロンプトやマルチプロンプトなどの高度な機能をサポート、様々な画像グリッドを制御する --chaos arg (0 から 100 に設定) をサポート。といったところです。いままでのMJユーザからの歴史視点も入っているので、詳細はぜひnoteを読んでみてください。

作品紹介

852話 @8co28 さん (10/31)

AI 無編集
この絵柄本当に可愛いな~

https://twitter.com/8co28/status/1587049891238273025

Waifu Diffusion×Colabで無料錬成チャレンジ備忘録&参考資料(Day1) (11/4)

https://note.com/mishimahiaka/n/nf5c6383495f1

VTuber 三島ひあか📐📕 @MishimaHiaka による初心者風体験記。いわゆる萌え絵系ではないイラストに特徴があるので、この後の成長が気になる…。

論文

UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal Guidance (10/28)

https://arxiv.org/abs/2210.16031

  • UPainting: クロスモーダルなガイダンスによるテキストから画像への統合的な拡散生成
  • Wei Li, Xue Xu, Xinyan Xiao, Jiachen Liu, Hu Yang, Guohao Li, Zhanpeng Wang, Zhifan Feng, Qiaoqiao She, Yajuan Lyu, Hua Wu.

拡散型生成モデルは、近年、テキスト条件付き画像生成の能力を大幅に向上させている。既存の画像生成モデルには、主にテキスト条件付き拡散モデルとクロスモーダル誘導型拡散モデルがあり、それぞれ小さなシーン画像生成と複雑なシーン画像生成を得意としている。本研究では、図1に示すように、シンプルかつ効果的なアプローチであるUPaintingを提案し、シンプルなシーン画像生成と複雑なシーン画像生成を統一的に行うことを目的としています。UPaintingは、アーキテクチャの改善と多様なガイダンススケジュールに基づいて、事前に学習した画像とテキストのマッチングモデルからのクロスモーダルガイダンスを、事前に学習したTransformer言語モデルをテキストエンコーダーとして利用したテキスト条件拡散モデルに効果的に統合します。その結果、言語を理解する大規模なTransformer言語モデルと、クロスモダルの意味やスタイルを捉える画像テキストマッチングモデルを組み合わせることで、画像生成におけるサンプルの忠実度と画像とテキストの整合性を向上させることができることがわかりました。このように、UPaintingはより一般的な画像生成能力を持ち、単純なシーンから複雑なシーンまで、より効果的に画像を生成することができます。テキストから画像への変換モデルを包括的に比較するために、我々はさらに、より一般的なベンチマークであるUniBenchを作成し、単純なシーンと複雑なシーンの両方でよく書かれた中国語と英語のプロンプトを使用します。UPaintingを最近のモデルと比較した結果、UPaintingはキャプションの類似性と画像の忠実性の点で、単純なシーンと複雑なシーンの両方で他のモデルを大きく上回っていることが分かりました。

UPaintingプロジェクトページ https://upainting.github.io/


UPaintingプロジェクトページより

UPaintingはCLIP guidanceなのか? (11/2)

https://qiita.com/nishiha/items/4ec0aeaf19cc43589a77

@nishihaさんによる classifier-free guidance(CFG) scaleに注目した解説。CFG scale「プロンプトによって描かれる成分(変動分移動)を増幅しよう!」という意図がある、また論文中の符号の誤りの指摘などお気持ち解説が興味深いです。

eDiff-I: Text-to-Image Diffusion Models with Ensemble of Expert Denoisers

NVIDIAによる「eDiff-I」が公開されました。
論文を読む限りでは、テキスト(意味のある文字)と、スタイル転移学習に強そうです。

<以下参考訳です>

eDiff-Iは、瞬時のスタイル転送と言葉による直感的なペイント機能で、これまでにないテキストから画像への合成を実現する新世代の生成型AIコンテンツ作成ツールです。
我々はテキストを与えられた画像を合成するための拡散モデルであるeDiff-Iを提案します。拡散モデルの挙動がサンプリングの異なる段階で異なるという経験的観察に動機づけられ、我々は、それぞれが特定のノイズ区間に特化した専門家ノイズ除去ネットワークのアンサンブルを訓練することを提案する。我々のモデルはT5テキスト埋め込み、CLIP画像埋め込み、CLIPテキスト埋め込みを条件とする。本手法は、任意の入力テキストプロンプトに対応する写実的な画像を生成することができる。また、(1)スタイルトランスファー(参照スタイル画像を用いて生成サンプルのスタイルを制御することができる)、(2)「Paint with words」(ユーザーがキャンバス上にセグメントマップを描くことで画像を生成できるアプリケーション)は、テキストから画像合成に加えて、ユーザーが思い描く画像を作り出すのに非常に便利な機能であることを発表しています。

https://deepimagination.cc/eDiff-I/

https://www.louisbouchard.ai/ediffi/

https://www.youtube.com/watch?v=grwp-ht_ixo

https://arxiv.org/abs/2211.01324

https://www.youtube.com/watch?v=NSFU1DSA1ak

パイプライン: 本パイプラインは、64x64の解像度のサンプルを合成できるベースモデルと、256x256と1024x1024の解像度にアップサンプリングできる2つの超解像モデルのカスケードで構成されています。本モデルでは、入力キャプションを受け取り、まずT5 XXL埋め込みとテキスト埋め込みを計算します。オプションとして、参照画像から計算されたCLIP画像エンコーディングを使用します。これらの画像埋め込みはスタイルベクトルとして利用できる。これらの埋め込みは、解像度1024x1024の画像を漸進的に生成するカスケード拡散モデルに供給されます。

ノイズ除去のエキスパート: 拡散モデルでは、ランダムなノイズから徐々に画像を生成するノイズ除去を繰り返しながら、画像合成を行います。下図では、完全なランダムノイズから始まり、複数回のノイズ除去を経て、最終的にパンダが自転車に乗っている画像を生成しています。従来の拡散モデル学習では、1つのモデルを学習させることでノイズ分布全体をノイズ除去していました。しかし、本手法では、生成過程の異なる区間でのノイズ除去に特化したエキスパートノイズのアンサンブルを学習させることで、生成過程の異なる区間でのノイズ除去を実現する。このような専門的なノイズ除去器を用いることで、合成能力の向上につながる。

成果: オープンソースのテキストから画像への変換手法(Stable diffusion)、(DALL-E2)と比較して、本モデルでは合成の品質を確実に向上させることができました。

スタイルトランスファー: 本手法は、CLIP画像埋め込みを利用することで、スタイル転送を可能にする。まず、スタイル参照画像から、スタイル参照ベクトルとして利用可能なCLIP画像埋め込みを抽出します。下図の左側がスタイル参照画像です。中段のパネルは、スタイルコンディショニングを有効にした場合の結果を示しています。右側のパネルは、スタイルコンディショニングを無効にした場合の結果です。スタイルコンディショニングを使用すると、入力スタイルと入力キャプションの両方に忠実な出力が生成されます。スタイルコンディショニングを無効にした場合は、自然なスタイルで画像を生成している。

言葉で描く: 本手法では、プロンプトに記載された語句を選択し、画像に書き込むことで、その位置を制御することが可能である。そして、プロンプトと地図を用いて、キャプションと入力地図の双方に整合性のある画像を生成するモデルである。

デノイジングエキスパートの利用によるメリット: 我々のアプローチによって生成されたサンプルを可視化し、ノイズ除去の専門家を使用しないベースラインと比較することによって、ノイズ除去の専門家を使用することの利点を説明する。下図の左2つのパネルは、専門家を使用しないベースラインを示し、右2つのパネルは、我々の専門家モデルを使用した結果を示しています。専門家を用いることで、入力テキストへの忠実度を大幅に向上させることができることが分かります。

T5とCLIPのテキスト埋め込みの比較: CLIPテキスト埋め込みとT5埋め込みを単独で使用した場合の効果を調べ、CLIP+T5埋め込みを使用したフルシステムと比較します。その結果、CLIPテキストのみで生成された画像は、前景オブジェクトが正しく含まれていることが多く、細かいディテールが欠落する傾向があることが分かりました。また、T5テキストのみで生成された画像は、より高品質ですが、誤ったオブジェクトを含む場合があります。CLIP+T5を使用することで、最高のパフォーマンスを得ることができます。

スタイルのバリエーション: 本手法では、入力キャプションに指定することで、異なるスタイルの画像を生成することも可能である。

国際

DALL·E API Now Available in Public Beta (11/3)

元祖 text-to-imageともいえる「DALL-E」もAPI公開となりました。

https://openai.com/blog/dall-e-api-now-available-in-public-beta/

アカウントを無料で作成して、Visual Studio Code で REST Clientをインストールして
hoge.http というファイルを作って、表示される send request を押してみてください。

POST https://api.openai.com/v1/images/generations
Content-Type: application/json
Authorization: Bearer (ここにAPIキーを入れる)

{
    "prompt": "anime coloring of a happy corgi puppy sitting and facing forward, studio light, longshot",
    "n":1, 
    "size":"1024x1024" 
}

あんまりかわいくないな…。

https://twitter.com/o_ob/status/1594705235414773761

無料で使えます。

ただし、1つのAPIリクエストで処理できるのは、プロンプトから補完までの間にある2,048トークン(約1,500ワード)までという制限があります。

もちろん萌え絵は苦手です。

お知らせ:「AIとコラボして神絵師になる論文から読み解くStable Diffusion」発売記念番組 (10/28)

改めまして、自分が書いた書籍がリリースになります。

「AIとコラボして神絵師になる
 論文から読み解くStable Diffusion」
  白井暁彦(著) インプレスR&D(刊)

Kindle版 https://ivtv.page.link/ak
印刷版 https://ivtv.page.link/ap

難しい数学やプログラミング…一切わからない「中学生でも読める本」を目指しました。
表紙担当した852話さんとの対談も面白いと思います

#AI神絵師本 「AIとコラボして神絵師になる論文から読み解くStable Diffusion」発売記念配信〜あなたは何を創るのか?

https://www.youtube.com/watch?v=GpvI_NC3ggU

想像と欲望がドライブするこの世界、あなたは何を創りたい?

白井暁彦 著「AIとコラボして神絵師になる論文から読み解くStable Diffusion」発売記念配信です。

文字列で生成できてしまうAI画像生成技術について、私たちはどう理解すれば良いのでしょうか。絵を描く作家は敵か新たな道具か、アートを教える先生は学生に何をどう伝えれば良いのか、コンテンツの未来は…?
私たち自身がAI画像生成技術とどのように付き合っていくのか選択するためのヒントを考えます。

パーソナリティ:白井暁彦
画像生成&聞き手:よーへん
2022/10/28生放送

アーカイブ残しておきます!
文化面のツッコミが楽しいと思いますので感想は「#AI神絵師本」でいただけると幸いです。

Discussion