👾

ウワサのDALL-E-2で色んな画像を生成してみた

2022/07/27に公開

はじめに

この記事は、先日ベータ提供が開始された「DALL-E-2」で色んな画像を生成してみるだけの記事です。

DALL-E-2とは?

DALL-E-2とは、AIを研究するOpen AIがリリースした 文章から画像を生成する ことができるサービスです。旧versionである「DALL-E」は2021年1月にリリースされていましたが、今年の4月にリリースされた後続versionである「DALL-E-2」では、その精度の高さからTwitterなどで話題になっていました。
公式サイトから抜粋した比較は以下です。

Input:
"a painting of a fox sitting in a field at sunrise in the style of Claude Monet”
deeplによる翻訳:「朝日に照らされた野原に座る狐を描いたクロード・モネ風の絵」

Output:

この生成された作品をモネ風とみるかどうかは議論があるところかと思いますが、各段に良くなっている気がしますね。

DALL-E-2によって生成された作品はベータ公開が行われるまでは商業利用不可でしたが、ベータ提供が始まってからは商用利用も可能となっています。
私も4月12日にWait listへの登録を行い、ようやくアカウントが発行されたため色々試してみたいと思います。

やってみた

DALL-EのUIは以下のような感じです。

テキストを入力するインプットボックスとサンプルの画像が表示されています。非常にシンプルですね。
DALL-Eは出来る限り具体的な指示に対しての生成が得意とのことなので、できるだけ情報を付与して生成を行いたいと思います。
以下は適当に作成した画像の羅列です。仕様として、入力に対していくつかの画像が表示されますが主観的に一番よく出来ていると感じた作品を羅列します。

"cat hacker typing a keybord in a lab, pixel art"

deeplによる翻訳:「研究室でキーボードを打つ猫ハッカー, ピクセルアート」

すげぇ、NFTっぽい。

"a hamster wearing a kimono at purple desert, digital art"

deeplによる翻訳:「紫の砂漠で着物を着たハムスター、デジタルアート」

きゃ、、きゃわいい・・・・

"hipster owl drinking a coffee at cafe"

deeplによる翻訳:「カフェでコーヒーを飲むヒップスター・フクロウ」
※hipster - なんかおしゃれな眼鏡とハットが似合う系のファッション

口語的な表現もちゃんと認識されている・・・

実際に存在するキャラクターはどうなるのでしょうか?

"Mouse character created by Walt Disney"

deeplによる翻訳:「ウォルト・ディズニーが生み出したネズミのキャラクター」

似てる!すごく似ている!
著作権の考慮も必要な分野かと思いますが、どのように学習を行っているか気になるところですね。

"Salvatore Dali style painting of Albert Einstein"

deeplによる翻訳:「サルバトーレ・ダリ風のアルベルト・アインシュタインの絵」

髭がダリっぽい!ダリが描いたというよりは、ダリっぽいアインシュタインとなりましたがうまく表現されていると思います。

まとめ

今回試してみて、DALL-E-2のセンスの良さと精度の高さに驚きました。
クリエイティブの領域は機械学習やAIの苦手とする領域であるとの印象を持っていましたが、全然そんなことない、すごい(小並)。
これから商用利用が可能になるということなので、どのようなビジネスや作品が広まっていくのか楽しみです。
引き続き、色々と試していきたいと思います。

参考

https://openai.com/blog/dall-e-now-available-in-beta/

Discussion