📖

Midjourneyから見るAIと人間の創造性に関して

2023/04/09に公開

初めに

本稿では昨年発表された論文「The Creativity of Text-based Generative Art」に関してまとめています．

Title	The Creativity of Text-based Generative Art
link	https://arxiv.org/pdf/2206.02904.pdf

概要

研究の目的

テキストを使用して、ブラックボックスなAIシステムによって生成されたアートは、はたして創造的なのかを考える
テキストベースの生成システムで画像を生成する際の人間の創造性とはどのようなものかを追求する

著者の主張

著者は、ある人工物が斬新で適切であれば創造的であるとみなされるという、製品中心型の創造性のパラダイム[1]を批判する立場にあり、創造的プロセスの最終成果物だけを見るのではなく、創造的プロセス全体を含むように視野を広げることが必要と主張している。
この調査のために、ローデスの創造性の「4つのP」の概念モデルを使用した。4つのPとは、"product"、"person"、"process"、"press（創造的環境）"という4つの視点から創造性を見るものである。著者は、テキストベースの画像生成モデルにおいても、これらの四つの視点が全て必要であると考えている。

本論文の貢献

一般的に使用される考え方であるproduct-based operationalization of creativityでは、人間の創造性を測定できないケースを概説した
Rhodesの4Pフレームワークを用いて、テキストベースのGenerative Artに関わる人間の創造性の本質を説明した。この推論は、プロンプトエンジニアリングの反復的かつインタラクティブな実践に特に重点を置いている。
テキストベースのジェネレーティブアートの創造的プロセスに関わる2つの重要な要因として、画像レベルとポートフォリオレベルのキュレーションを強調。
オンラインコミュニティやリソースも、テキストベースのGenerative Artの創造性に影響を与える重要な要因のひとつであると主張。テキストベースの生成アートコミュニティにおいて、メンバーが担う5つの異なる役割の概要を解説。
テキストベースのジェネレーティブアートの創造性を評価するための実用的な課題について議論し、今後の研究の機会について概説した。

先行研究 (歴史)

Generative Artに関して

2016年に発表された、Philip Galanterの論文[2]では、Generative Artとは「アーティストが、完成された芸術作品に貢献する、あるいはその結果となる機能的自律性を備えたシステムに制御を委ねる芸術実践」と主張した。この主張に踏み込んで考えると、「アートとは何か？」という根本的な問いに行き着くが、本論文ではその議論に立ち入らず、Philipと同様に芸術の定義を、「著作権で保護される作品に人間の作者性や代理性が必要かどうかといった、多くの時宜を得た議論に囲まれた未解決問題」として捉えている。

Text-based Generative Art

GoogleのDeep Dreamがそれにあたる。テキストベースでの画像生成に拍車をかけたのは、2021年にOpenAIから発表されたCLIP[3]だ。CLIPはwebから収集した4億ペアの画像とテキストを学習させた機械学習モデルであり、テキストと画像の対応関係を広範に習得している。このCLIPとGANを融合させたVQGAN-CLIP[4]も一時期大きな話題を呼んた。さらには近年研究が活発化してきているDiffusuionモデルと呼ばれる画像生成モデルとCLIPの融合研究に関しても報告されている[5]。

The Four P of Creativity

Jonasらは、「創造性は複雑な多面的現象であり、定義することは困難である」と主張[6]しているが、創造性の概念の全体像を考える上で有用な概念モデルとして，ローデスの創造性の「4つのP」が提唱[7]されている。

人（性格，知性，習慣，態度など）
プロセス（思考，動機，学習など）
プレス（人間の環境）
プロダクト（思考の成果物）

その後の研究では、「プロセスの結果」が「人の創造性の代理人である」ということが主張され、製品は人間の創造性を測る尺度として機能すると解釈された。その結果、創造的と見なされる人工物は"新規性（独創的、ユニークなど）"と"有用性（適切、効果的など）"の２つを兼ね備えたものであるという主張が一般的となった。

4つのPに準えて捉える

Product: The Digital Image

現状生成できる画像は、体解剖学や顔が描かれている場合、完璧でないことが多い。このような場合、追加の後処理が必要。ただし、近い将来テキストベースの生成アート作品は、人間が作ったものと見分けがつかなくなることが予想される。
よって、現時点では完璧な創造物が作れないという点で、Productで人間の創造性を解釈することは困難。よって、残りの３つの観点に着目する。(これが4つのPを採用した理由と考えられる)。

Person: The Practitioner

Midjourneyのコミュニティーの中には、上手いpromptを書く人と、そうでない人がいる。人は、上手い人のpromptを参考にしながら、どのようなプロンプトを作成すればクリエイティブな画像が生成できるかを学習している。具体的には、プロンプト修飾子に「trending on artstation」を付けると高品質な画像が生成できることが発見されている。このように、コミュニティにおいて人間が学習するという現象が発生している。

Process: Iterative Prompt Engineering and Image Curation

人間に対するprocess
- 良いpromptを反復しながら探していくという。
システムに対するprocess
- GANや、Diffusionなどの画像生成モデルは、手法は違えど低品質のものから高品質のものを作り上げるという過程がある。この生成過程の途中で、ユーザーは生成を中断させることもやり直すことも可能である。
両方に当てはまるprocess
- 生成される画像は1枚でなく複数枚であるため、その中から優れた画像を人間が選択することができる。

Press: The Emerging Text-based Generative Art Ecosystem

テキストベースのGenerative Artに関するオンライン・エコシステムが出現している。Google Colab (ブラウザ上で機械学習モデルを簡単に試せるツール)や、MidjourneyにおけるDiscordもその最たる例だ。
このエコシステムによって、テキストベースのGenerative Artを、技術的な知識のないユーザーでも利用できるようになっている。また、エコシステムは、新しい実践者を引き寄せ、全体としてこの分野を発展させる触媒として機能している。

Conclusion

テキストベースのGenerative Artの創造性を完全に評価するには、The product-centered view of creativityだけでは不十分である。この論文では、製品中心の創造性の定義では、テキストベースのGenerative Artに関わる人間の創造性の全容を把握できないというシナリオでこの点を実証している。この論文では、テキストベースのジェネレーティブアートに関わる人間の創造性を評価するために、結果としてのデジタル画像だけでなく、制作者のプロセスや環境にも目を向ける必要があることを主張した。さらに本論文では、Rhodesの概念的な「4つのP」モデルを用いて、テキストベースのGenerative Artの創造に関わる人間の創造性の本質を明らかにした。

参考論文

Mark A. Runco and Garrett J. Jaeger. 2012. The Standard Definition of Creativity. CreativityResearchJournal24,1(2012),92–96. https://doi.org/10.1080/10400419. 2012.650092
Philip Galanter. 2016. Generative Art Theory. John Wiley & Sons, Ltd, Chichester, WestSussex,UK,Chapter5,146–180. https://doi.org/10.1002/9781118475249.ch5
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. 2021. Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the 38th International Con- ference on Machine Learning (Proceedings of Machine Learning Research, Vol. 139), Marina Meila and Tong Zhang (Eds.). PMLR, 8748–8763.
KatherineCrowson,StellaBiderman,DanielKornis,DashiellStander,EricHalla- han, Louis Castricato, and Edward Raff. 2022. VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language Guidance. https: //doi.org/10.48550/ARXIV.2204.08583
Katherine Crowson. 2021. CLIP Guided Diffusion HQ 256x256. https://colab. research.google.com/drive/12a_Wrfi2_gwwAuN3VvMTwVMz9TfqctNj
Jonas Frich, Michael Mose Biskjaer, and Peter Dalsgaard. 2018. Twenty Years of Creativity Research in Human-Computer Interaction: Current State and Future Directions. In Proceedings of the 2018 Designing Interactive Systems Conference (Hong Kong, China) (DIS ’18). Association for Computing Machinery, New York, NY, USA, 1235–1257. https://doi.org/10.1145/3196709.3196732
Mel Rhodes. 1961. An Analysis of Creativity. The Phi Delta Kappan 42, 7 (1961), 305–310.

初めに

概要