こちらの内容を抜粋・編集し、技術書典13において、合同本「機械学習の炊いたん6。」の一章として50ページ程度取り上げました。他にも機械学習関連の個性豊かな内容が盛りだくさん。よろしければお手に取ってみてください。
「任意のテキストを入力したら、お絵描きAIがお好みの画像を生成してくれる」「乱雑な下書きから、自在に美麗な画像が生成できる」 -- そんな機械学習による画像生成が注目を集めています。特に2022年の上半期、Open AIによるDALL-E 2の公開、Midjourneyの登場と、研究を超え、アーティストや一般の方にも盛り上がりが波及しました。Twitter、InstagramといったSNSなど、「こんな画像を生成してみた」といった投稿をよく目にするようになりました。
2022年8月23日、Stable Diffusionという、テキストからの画像生成モデルが一般公開されました。これをきっかけに、画像生成界隈はさらに盛り上がりました。Stable Diffusionを使ってみたという報告、従来研究と融合させる試行、商用プロダクトへの応用や取り込みなど、研究者、アーティスト、プログラマなど様々な人々によって、爆発的に新しい情報が生み出されています。また、新技術としての側面だけでなく、Webアプリ、スマートフォンアプリ、LINEボット、従来アプリケーションへのプラグインとしての融合など、ビジネスとして、また創作活動全般を変える兆しが見え始めました。さらに重要な点として、法的側面、またアーティストの心情面にも配慮した議論が始まっています。
機械学習による画像生成自体は、これまで継続的に研究が進められてきた分野です。2010年代前半、画像分類精度の飛躍的向上などに始まる深層学習や人工知能ブーム、その後発表されたGAN (Generative Adversarial Network) による画像生成、その発展による生成画像高精細化、画像への説明文生成 (Image-to-Text) や、説明文からの画像生成 (Text-to-Image) といった自然言語・画像を横断するようなマルチモーダル化と、研究は年々進んできました。2010年代の終わりから2022年にかけて、自然言語を皮切りにTransformerという新たな深層学習モデルアーキテクチャの利用が広がり、それを活用した大規模基盤モデルの隆盛、そのファインチューニングやマルチタスク利用が始まりました。そして、2022年現在、多くの用いられてきたGANを凌駕する、拡散生成モデル (Diffusion Model) による画像生成が見直され、またその計算量削減が進められ、一般の利用にも広がり始めました。
また、画像生成は単独で使うだけではありません。別の機械学習モデルや、既存のクリエイティブツールチェーンと組み合わせることで、さらに面白い効果が見込めます。それらの作例を知ることで、発想は無限大に広がることでしょう。
ただし、画像生成には、学習に使ったデータセットが必ず存在します。まず、それらのデータセット利用が何らかのライセンスを侵していないことなど、権利を法的解釈から、大掴みで理解しておくことも重要です。以前より、学習に用いたデータセットの偏りが生む生成結果の偏りや、それが社会に与える影響についても指摘され、研究されています。また、自身の描いたが絵画が学習データに取り込まれ、似たような画風が再生産されてしまうことに心情的にも拒否感を持つ人もいます。
本書籍は、
- 情報を読み解き、愉しみ、考えるための事前知識
- 何かご自身でも試してみるきっかけとなるチュートリアル
- その後継続して情報を追い続けるための参考リソース
- うまく画像生成と付き合っていくための観点
これらの提供を目的にまとめます。
画像生成を試してみる
まず話題となっている画像生成を試してみることから始めましょう。いくつかの選択肢を、動かしながら大掴みで理解することを目指します。
深層学習や画像生成の歴史に触れる
次に、深層学習とは何かに始まり、それが注目を浴び始めた2010年代前半から、2022年に至る大きな流れをざっくりと解説します。画像生成がいきなりこの夏に現れたものではなく、研究の歴史、繋がりの中で生み出されたことを掴み、組み合わせ可能な関連の技術を含め、「土地勘」を身につけます。
解剖! Stable Diffusion -- 動かして学ぶ動作原理
さらに、Stable Diffusionが動作する仕組みについて、それを構成する部品ひとつひとつに着目し、また皆さんに、実際に動作するコードをColaboratory上で実行していただきながら、解説を進めます。図解にとどまらず、より具体的な動作原理に触れ、コーディングに明るい方は、得たい表現のために自ら改変できるようになることを目指します。
より幅広い表現を試す
次に、自分なりの表現を生み出したり、試すために、まずは先人の幅広い試行錯誤や、画像生成そのものに限らない関連ツールについて取り上げます。
最新動向を追うために
最後に、この書籍にある内容も、書いた瞬間から陳腐化が始まるため、最新情報には、読者の皆さんご自身でキャッチアップいただくべく、情報ソースとなるアクティブな活動をされている媒体や企業、個人を取り上げます。
それでは、一緒に潜在空間 (Latent Spaces) 、高次元ベクトルの海に飛び込みましょう!