🐶

GPT-4Vでどこまで正確なプロンプトが作成できるのか実験

2023/10/21に公開

実現したいこと

画像生成のDALL・E3とGPT-4Vを組み合わせて、同じ画像をどの程度再現できるのかを検証してみます。
これができると、同じ画像を改変していくことで、動きを持たせたりシリーズ化したりと、活用の幅が広がりそうです。

そこで、今回は実験として、画像とプロンプトを今後に生成しながら、どの程度までいくと元の情報が欠落していくのかを検証します。

実験結果

まず、「犬と猫が遊んでいる画像。日本のアニメーションっぽく。」という日本語で、DALL・E3にイメージをつくってもらいました。

これを、GPT-4Vで、「Please make a prompt to create this image.」と、プロンプトを作成してもらいます。

"""
Illustration of a playful dog chasing a cat with large expressive eyes, reminiscent of a scene from a Japanese anime. They are in a park with a pond and koi fish swimming.
"""

再度、このプロンプトをDALL・E3で流します。4つイメージが出ますが、そのうち最も近いイメージかは私の方で判断してみます。

ちょっと、犬猫が占める比率が小さくなりましたが、まだまだ情報は残っていますね。
とはいえ、最初の日本のアニメーションっぽさがちょっと抜けていますね。最初のものと同じ絵柄とは言いづらい感じです。

それを、改めて、GPT-4Vでプロンプト化。

"""
Create a vibrant and detailed illustration set in a serene Japanese garden. The background should feature lush greenery, a traditional wooden pagoda, and a stone bridge arching over a tranquil pond filled with lively orange koi fish. In the forefront, illustrate a cheerful dog with big expressive eyes, floppy ears, and a joyful demeanor, playfully sticking out its tongue. Beside the dog, depict a cute kitten with multicolored fur, oversized bright yellow eyes, and a playful yet curious expression. The dog and the kitten should appear as if they are excitedly exploring the garden, capturing a moment of innocent wonder and adventure
"""

大分、プロンプトが長くなりました。

これでDALL・E3で画像を作成すると。

犬が子犬に、猫が見切れてきました。(ほかの画像だと、猫がいないケースも)

そのプロンプトは次の通り。

"""
Create a vibrant and detailed illustration that captures the essence of a serene Japanese garden. The setting should be surrounded by lush greenery with varying shades of trees and bushes, forming a backdrop of a cascading waterfall. A traditional Japanese pagoda stands majestically to the left, surrounded by vividly colored flowers like cherry blossoms and chrysanthemums.

In the center foreground, construct a wooden arched bridge over a crystal-clear pond filled with orange koi fish playfully swimming around. The water should have a hint of reflection of the surrounding nature.

On the right side, feature a cheerful and animated puppy with large, expressive eyes and a wagging tongue. The puppy is accompanied by an adorable kitten with striking eyes, looking curiously at its surroundings. Both the puppy and kitten should emanate a sense of joy and wonder.

The overall tone of the illustration should be whimsical, colorful, and inviting, making viewers wish they could step into this picturesque world.
"""

長い。。。

そして、画像化すると。
ついに、猫がいなくなってしまいました。プロンプトには、「Both the puppy and kitten should emanate a sense of joy and wonder.」とあるので、猫が書かれているんですけどね。

犬も急にピレネー犬みたいな、真っ白な感じの子になりましたね。

プロンプトを改めてみると、背景の情報が多いんですよね。
もしかしたら、その情報を減らして、より犬猫の情報を詳しく聞くといいのかもしれませんね。

Discussion