テキストからの画像生成、CopilotやGemini・・を比較検証してみる
生成AIの進化により、テキストから高品質な画像を生成する技術は急速に普及しています。
筆者は Microsoft Copilot あと Gemini や Grok は、一般ユーザーに広く浸透しており、画像生成の精度・速度・表現力において、素晴らしい印象です。
今回は同一のテキストプロンプトを用いて画像生成を比較し、表現の違い・使い勝手・生成傾向 を検証したいと思います。
プロンプトの準備

この画像に対して
この画像をイチから生成できるプロンプトを考えて
を複数のLLMにて実施し、そのプロンプトの中間値てきなプロンプトテキストをまず準備しました。
短い黒髪の人物が、正面を向いて立っている。
淡いピンク色のカーディガンと濃紺のスカートを着用し、
両手でパステルレインボーのクマのぬいぐるみを胸の前に抱えている。
ぬいぐるみは柔らかい虹色のグラデーション、丸い目と微笑んだ表情、
首には虹色のリボン。
背景はシンプルで、人物とぬいぐるみが優しく際立つ構図。
柔らかい光、淡い色彩、温かく落ち着いた雰囲気のイラストスタイル。
実証結果
■■Copilot(GPT-Image-1.5)

柔らかい光や淡い色彩、感情のこもった構図になりましたね。
詩的・物語的な雰囲気を表現できる印象で、人物やぬいぐるみの質感、優しい表情、色のグラデーションなど細部まで丁寧に描写されており、温かく落ち着ついた感じを自然に再現してます。
■■Gemini

質感とディテールの表現力が優れており、ぬいぐるみの「もふもふ感」や衣服のしわ、光の当たり方を極めて、とてもリアルに描写しています。
抽象的な指示からも上手くライティングを構成し、ドラマのワンシーンのような絵作りになっており、複雑なポーズの整合性を保ちつつ、自然な感じの人物描写をしています。
■■Grok

プロンプトへの忠実度が高い印象で、服装・色・構図・雰囲気などを正確に反映している印象です。
人物の崩れが少なく、正面顔や抱きポーズも不自然なく描けおり、どことなく温かく穏やかなテイストで、可愛らしく落ち着いたイラストを描いています。
やや背景は簡略化されている印象ですが、指示通りで優しく可愛い絵になっています。
同じプロンプトでもLLMによって大きく異なる描き方
デル固有の事前学習データが異なるため、人物の描き方・色彩・質感などの初期バイアスが大きく変ります。
次にプロンプトに含まれない曖昧要素(顔立ち、背景色、衣服の形状など)を補完する際、モデルごとの推論アルゴリズムが異なる解釈を行っています。
さらに色表現や光の扱いには生成モデル固有のスタイル傾向があり、パステル寄り・高コントラスト寄りなどの差が出ます。
加えて、人物生成には安全性フィルタが働き、年齢・表情・体型の調整ロジックがモデルごとに異なるため、印象の差が拡大しているようです。
初期バイアスの違い(個人的な見解です)
構図
Copilot:シンプル構図
Gemini:可愛い系のキャラ
Grok:キャラの存在感を出す
絵作り
Copilot:写実寄りのイラスト
Gemini:デフォルメ寄り
Grok:アニメ寄り・線が強い
色の扱い
Copilot:自然光で淡い色のグラデーション
Gemini:パステル系の可愛い色
Grok:コントラスト強めで色の境界が明確に
まとめ
画像生成AIに特化したサービスでも試してみたが、個人的な印象ながら検証した上記3つは、より一般受けしそうな絵作りであり好感度をもてた。
プロンプトをいくつか変えても試してみたが、概ね同じような傾向となったが、この簡易な検証方法がそもそも良いのか含め、次回検証に向けて検討してみたいと思った。

Discussion