🎨

実験-画像に見る人のインサイトを刺激する意図を含ませる-DALLE3

2024/01/27に公開

目的

  • 画像生成AIに、鑑賞者に与えるインサイトを指定して画像を修正することができるか確かめる

きっかけ

  • 852話さんのDiscordで下記のような議論があった

思いつき。
AI感を消すためのAI画像加工法、とかが気になりました。
例えばDALL·E 3で画像を生成するとものすごくAI感が強い画像が出来ますが、これを緩和する方法があると面白いかなと。
SD通してi2iなどで生成しなおす・・・とかかなとは思っていますが。

例えばこういう絵ですかね

そうですね!こういうものなど。

単純な形状維持だったらCNでフラットなロラなどを使うですけどそういうことではないんですよね多分…?

単純な形状維持ではないですがあんまり理想形がイメージ出来ておりませんで・・・

そもそもこの猫だと目の感じがかなりAI色強いですね…

デフォルトがディズニーよりだからなぁ
あと背景もAIっぽいですね

二つ目の雰囲気よくなってますね。
脱AI感は面白いテーマな気がするので自分も試してみます。

AI感の言語化がまず難しいんですよね…

線と点かもと思います
要は人間でカブラペンとかだと線の入りは細くても真ん中太くて、終わりが抜きみたくなるやないすか

AI感って3DCG初期ごろ言われてた「かたさ」「全部が鮮明」とかと似たような感じなんじゃないですかね

あと、人間だとかなり訓練された人しかペンを同じ太さで引き続けられない
ロットリング使ってすら
そういうとこが完全に一定なんすよね。AI

人間が意図的に行う被写体の大きさのバランスをアンバランスにするといった行為を、AI側はランダムな形で行ったりしていて「その描写の仕方の意図は人間では行いづらいので違和感としてAIっぽく感じる」ってところでしょうかね。

仮説

  • 上記に対する私見立ては下記の通り
    • AIにはインサイトみたいなものが無いので、特定の要素への着目、執着、萌えみたいなものがこもってなくて、またはそれらを喚起する意図が無くて、画面の左上頂点から右下頂点まで逐次描写してるような違和感を感じます。
    • 絵としての総体感というより、異様に整合性の取れた点の集合体みたいな違和感。
    • フルCGのアニメとかだと、カメラアングルやカメラワークで視聴者の感情をコントロールしようとしますが、それすら無い感じと言うか。
  • 仮説として、AIに鑑賞者に喚起させたいインサイトについて明示的に指示が出せれば、AIが鑑賞者が喚起されるであろうインサイトを意識した描写をすることができるのではないか、と考えました

実験

  • 実験は、ChatGPT Plus上で行いました

リファレンス画像をimage to text

  • リファレンス画像を実験目的に沿って修正するために、GPT-4Vの力を借りて、画像をテキストに変換します

あなた

この画像を、視覚から情報を得ることが難しい人にために英語で詳細に説明してください

ChatGPT

The image depicts an anime-style female character with large, expressive blue eyes and voluminous black hair adorned with colorful hair accessories, including beads and ornaments that feature rainbow hues. Her hair is styled with multiple layers, giving a dynamic, flowing appearance, with strands of hair in pastel rainbow colors blending into her natural black hair.

She wears a modernized kimono with a translucent, sheer quality that has a subtle floral pattern and is adorned with a spectrum of pastel colors, blending into one another like a watercolor painting. The obi belt is vibrant, with geometric patterns in multiple colors cinched at her waist with a pink circular clasp. A choker and a delicate chain necklace grace her neck.

Her expression is joyful and welcoming, with a slight smile and her hands gently clasped before her. The background suggests a festive atmosphere, with soft-focus cherry blossoms and light orbs suggesting a warm, sunny day.

あなた

下記の説明に従って画像を出力してください

The image depicts an anime-style female character with large, expressive blue eyes and voluminous black hair adorned with colorful hair accessories, including beads and ornaments that feature rainbow hues. Her hair is styled with multiple layers, giving a dynamic, flowing appearance, with strands of hair in pastel rainbow colors blending into her natural black hair.

She wears a modernized kimono with a translucent, sheer quality that has a subtle floral pattern and is adorned with a spectrum of pastel colors, blending into one another like a watercolor painting. The obi belt is vibrant, with geometric patterns in multiple colors cinched at her waist with a pink circular clasp. A choker and a delicate chain necklace grace her neck.

Her expression is joyful and welcoming, with a slight smile and her hands gently clasped before her. The background suggests a festive atmosphere, with soft-focus cherry blossoms and light orbs suggesting a warm, sunny day.

ChatGPT

あなた

下記の英字テキストを修正します

この英字テキストは詳細に画像の内容を説明していますが、このままでは画像のどの部分が観客のインサイトを刺激して強い印象を残すのかがわかりません

英字テキストを修正して、画像に描かれているキャラクターの活き活きとした表情と美しい髪飾りに観客のインサイトが集中するようにしてください

その際に具体的に使用できるテクニックとしては、狭いフォーカスによるシャープさのコントロール、輝度のコントラストの差による視線誘導、彩度のコントラストの差による視線誘導などです

## 英字テキスト

The image depicts an anime-style female character with large, expressive blue eyes and voluminous black hair adorned with colorful hair accessories, including beads and ornaments that feature rainbow hues. Her hair is styled with multiple layers, giving a dynamic, flowing appearance, with strands of hair in pastel rainbow colors blending into her natural black hair.

She wears a modernized kimono with a translucent, sheer quality that has a subtle floral pattern and is adorned with a spectrum of pastel colors, blending into one another like a watercolor painting. The obi belt is vibrant, with geometric patterns in multiple colors cinched at her waist with a pink circular clasp. A choker and a delicate chain necklace grace her neck.

Her expression is joyful and welcoming, with a slight smile and her hands gently clasped before her. The background suggests a festive atmosphere, with soft-focus cherry blossoms and light orbs suggesting a warm, sunny day.

ChatGPT

In the revised description, the character's vibrant expression and the stunning hair accessories are emphasized to engage the audience's insight and leave a lasting impression. The text now guides the viewer's gaze through controlled sharpness via a narrow focus on these features, leveraging brightness and saturation contrasts to further draw attention to the character's lively face and the radiant adornments in her hair.

## **Revised Text**

Captivating at first glance, the image centers on an anime-style female character whose lively, sparkling blue eyes immediately draw the viewer in. The eyes are framed by an abundance of layered black hair, dynamically flowing and interspersed with vivid strands in pastel rainbow shades. The hair is further highlighted by an array of luminescent hair accessories—beads and ornaments in a kaleidoscope of rainbow colors that shimmer with life.

The character's exuberance is palpable, as seen in her bright, welcoming smile, which radiates against the soft glow of her skin. Her kimono is subtly detailed with a floral pattern, its pastel colors melting together like a delicate watercolor, yet it is her hair and joyful expression that truly captivate the audience. The obi belt's intricate geometric patterns in rich hues, secured with a striking pink clasp, complement the hair accessories' luminosity.

This focused illumination on the character's face and the sparkling details of her hair decorations create a magnetic contrast with the softer, dreamy background, where blurred cherry blossoms and gentle orbs of light suggest an ethereal, sunny realm. This strategic use of sharpness and contrast in luminosity and saturation ensures that the character's animated expression and ornate hair are the unforgettable focal points of the image.

あなた

下記の説明に従って画像を出力します

Captivating at first glance, the image centers on an anime-style female character whose lively, sparkling blue eyes immediately draw the viewer in. The eyes are framed by an abundance of layered black hair, dynamically flowing and interspersed with vivid strands in pastel rainbow shades. The hair is further highlighted by an array of luminescent hair accessories—beads and ornaments in a kaleidoscope of rainbow colors that shimmer with life.

The character’s exuberance is palpable, as seen in her bright, welcoming smile, which radiates against the soft glow of her skin. Her kimono is subtly detailed with a floral pattern, its pastel colors melting together like a delicate watercolor, yet it is her hair and joyful expression that truly captivate the audience. The obi belt’s intricate geometric patterns in rich hues, secured with a striking pink clasp, complement the hair accessories’ luminosity.

This focused illumination on the character’s face and the sparkling details of her hair decorations create a magnetic contrast with the softer, dreamy background, where blurred cherry blossoms and gentle orbs of light suggest an ethereal, sunny realm. This strategic use of sharpness and contrast in luminosity and saturation ensures that the character’s animated expression and ornate hair are the unforgettable focal points of the image.

ChatGPT



あなた

  • 視線誘導が、髪の毛および髪飾りに寄りすぎているので、プロンプトを修正する
下記の英字テキストを修正します

この英字テキストは詳細に画像の内容を説明していますが、このままでは画像のどの部分が観客のインサイトを刺激して強い印象を残すのかがわかりません

英字テキストを修正して、画像に描かれているキャラクターの活き活きとした表情に観客のインサイトが集中するようにしてください

その際に具体的に使用できるテクニックとしては、狭いフォーカスによるシャープさのコントロール、輝度のコントラストの差による視線誘導、彩度のコントラストの差による視線誘導などです

## 英字テキスト

The image depicts an anime-style female character with large, expressive blue eyes and voluminous black hair adorned with colorful hair accessories, including beads and ornaments that feature rainbow hues. Her hair is styled with multiple layers, giving a dynamic, flowing appearance, with strands of hair in pastel rainbow colors blending into her natural black hair.

She wears a modernized kimono with a translucent, sheer quality that has a subtle floral pattern and is adorned with a spectrum of pastel colors, blending into one another like a watercolor painting. The obi belt is vibrant, with geometric patterns in multiple colors cinched at her waist with a pink circular clasp. A choker and a delicate chain necklace grace her neck.

Her expression is joyful and welcoming, with a slight smile and her hands gently clasped before her. The background suggests a festive atmosphere, with soft-focus cherry blossoms and light orbs suggesting a warm, sunny day.

ChatGPT

In this vivid portrayal, the anime-style female character's radiant, expressive blue eyes immediately captivate the audience, serving as the focal point of the composition. The sharpness and brightness of her gaze contrast starkly with the softer, more muted tones of her surroundings, guiding the viewer's attention directly to her lively expression. Her voluminous black hair, enriched with strands in pastel rainbow shades and adorned with luminescent beads and ornaments, frames her face beautifully, enhancing the vibrant energy of her smile.

The character's modernized kimono, with its translucent, floral-patterned fabric in a delicate pastel palette, complements her dynamic presence without overshadowing the intensity of her expression. The obi belt, with its richly colored geometric patterns secured by a striking pink clasp, adds a layer of sophistication, echoing the vividness of the hair accessories.

Her joyful, welcoming demeanor, underscored by a subtle smile and the gentle clasp of her hands, becomes the image's emotional core, inviting viewers to share in the warmth and festivity implied by the blurred cherry blossoms and ethereal light orbs in the background. This strategic interplay of sharp focus, luminosity contrast, and saturation variance ensures that the character's animated expression remains the most memorable aspect of the image, leaving a lasting impression on the viewer.

あなた

下記の説明に従って画像を出力します
シード値はランダムに指定されます

In this vivid portrayal, the anime-style female character's radiant, expressive blue eyes immediately captivate the audience, serving as the focal point of the composition. The sharpness and brightness of her gaze contrast starkly with the softer, more muted tones of her surroundings, guiding the viewer's attention directly to her lively expression. Her voluminous black hair, enriched with strands in pastel rainbow shades and adorned with luminescent beads and ornaments, frames her face beautifully, enhancing the vibrant energy of her smile.

The character's modernized kimono, with its translucent, floral-patterned fabric in a delicate pastel palette, complements her dynamic presence without overshadowing the intensity of her expression. The obi belt, with its richly colored geometric patterns secured by a striking pink clasp, adds a layer of sophistication, echoing the vividness of the hair accessories.

Her joyful, welcoming demeanor, underscored by a subtle smile and the gentle clasp of her hands, becomes the image's emotional core, inviting viewers to share in the warmth and festivity implied by the blurred cherry blossoms and ethereal light orbs in the background. This strategic interplay of sharp focus, luminosity contrast, and saturation variance ensures that the character's animated expression remains the most memorable aspect of the image, leaving a lasting impression on the viewer.

ChatGPT

生成された画像に対する評価

  • 画像の中で最も鮮やかな色が使われていて、かつコントラストも高いのは、キャラクターの瞳である
  • 生成された画像の周辺部では、画像のシャープさが失われ、古いレンズの周辺部分のボケのような不鮮明さと、コントラストの低下が見て取れる
  • キャラクターの肩や頬、首には輝度の高いハイライトが描写されている
  • キャラクターの顔は、逆光を受けて影になっているが、キャラクターの顔の表情が見えるように適度に輝度が持ち上げれられ、かつハイライト部とのコントラストも維持されている
  • 上記のハイライト部以外のハイライト部分(例えば髪飾りなど)の輝度は抑えられ、画面上で最も輝度の高い部分にはなっていない(描写されているものの素材感を考えると、現実では起こり得ない描写である)
  • 結果として、キャラクターの瞳が鑑賞者の視線をキャッチし、強い印象を残し、そこから周辺に向かって、イラストとしての最低限のコントラストの美しさを維持しながらも、キャラクターの瞳に比べてコントラストが抑えられ、アウトフォーカスしている背景に向かってなだらかに印象を弱めていく描写になっている

最終的に用いたプロンプトの日本語訳

この鮮やかな描写では、アニメ スタイルの女性キャラクターの輝く表情豊かな青い目がすぐに観客を魅了し、構図の焦点として機能します。 彼女の視線の鋭さと明るさは、周囲の柔らかく落ち着いた色調とはっきりと対照を成しており、見る人の注意を彼女の生き生きとした表情に直接導きます。 彼女のボリュームのある黒髪は、パステル調の虹色のストランドで豊かに彩られ、発光ビーズや装飾品で飾られ、彼女の顔を美しく縁取り、彼女の笑顔の活気に満ちたエネルギーを高めています。

繊細なパステルカラーの半透明の花柄の生地をあしらったモダンな着物は、表情の強さを損なうことなくダイナミックな存在感を引き立てています。 極彩色の幾何学模様を印象的なピンクの留め具で留めた帯は、ヘアアクセサリーの鮮やかさと共鳴し、洗練された印象を与えます。

ほのかな微笑みと優しく手を握ることで強調される彼女の楽しく歓迎的な態度は、この画像の感情的な核となり、背景のぼやけた桜と幻想的な光の球が暗示する暖かさと祝祭性を共有するように見る人を誘います。 シャープな焦点、明度のコントラスト、彩度の変化を戦略的に相互作用させることで、キャラクターのアニメーション表現が画像の最も記憶に残る側面となり、見る人に永続的な印象を残すことが保証されます。

ふり返り

  • 画像を生成する際に、どの部分に鑑賞者を着目させ、インサイトを喚起したいか。そのために、どのような手法を用いるかを明示的に指示することで、その意図にそった英字の説明を出力させることを試みた
  • その英文をそのままプロンプトとして用いてChatGPT Plus(DALLE3)に画像を生成したところ、一定こちらの意図を汲み取ったような画像の生成ができた
  • 画像そのものを描写させるためのプロンプトだけでなく、その生成画像にどのような意図を込めるのか、についても指示を与えることができるかを検証したかったが、プロンプトの日本語訳を読むと、それについて具体的に指示しているとは読み取れない可能性もある(冒頭の指示と、最後の指示を抽象的に解釈して組み合わせていたとすれば、指示を受け取っていると言えるかもしれない)

Discussion