ChatGPT x DALLE3 用プロンプト実験場
DALL·E 3 プロンプト生成テンプレート
以下の情報を基にDALL·E 3用のプロンプトを英文で生成してください。
**主題とアクション**:
- 主題: [ここに主題を記入してください]
- アクションまたは状態: [ここにアクションや状態を記入してください]
**環境と場所**:
- 環境: [ここに環境を記入してください]
- 具体的な場所や設定: [ここに場所や設定を記入してください]
**スタイルとジャンル**:
- 芸術的スタイル: [ここにスタイルを記入してください]
- ジャンル: [ここにジャンルを記入してください]
**色彩と光**:
- 支配的な色や色のスキーム: [ここに色彩を記入してください]
- 光の方向や光源: [ここに光の情報を記入してください]
**構図と視点**:
- カメラの角度や距離: [ここに構図を記入してください]
- 主題の画像内での位置: [ここに視点や位置を記入してください]
**追加の要素とディテール**:
- 特定のオブジェクトやシンボル: [ここに追加要素を記入してください]
- その他のディテール: [ここにその他のディテールを記入してください]
---
画像修正プロンプト生成テンプレート
**元の生成プロンプト**:
- [最初に生成した際のプロンプト]
**変更したい具体的な要素**:
- 色彩の変更: [ここに色を変更したい部分と新しい色を記入してください]
- オブジェクトの追加/削除: [ここに追加または削除したいオブジェクトを記入してください]
- オブジェクトの変形やサイズの変更: [ここに変形やサイズを変更したいオブジェクトとその詳細を記入してください]
- テクスチャや素材の変更: [ここに新しいテクスチャや素材を記入してください]
- 構図や視点の変更: [ここに変更したい構図や視点の詳細を記入してください]
- 光と影の調整: [ここに光の方向、強さ、影の変更点を記入してください]
- その他の変更点: [ここにその他の修正点を具体的に記入してください]
**変更後の画像に期待する総合的な効果**:
- [ここに変更後の画像の総合的な雰囲気やイメージを記入してください]
上記の詳細に基づいて、DALL·E 3が生成した画像を修正するため指示となるプロンプトを英文で生成してください。
[追記]
最初のプロンプトは不要かもしれない。
(DALLE3ではなく)イラスト画像を与えて、それに近い絵を生成する為のプロンプトを得られるかの実験。
まずは↑このような結果。程遠いけどまぁまぁ。。。
今度はこの生成された絵をスクショして改善点を求め、テンプレートを元に改善点を含めたものを再出力してもらった。
まだ意図通りでは無いので再度同じ手順を実行したが、ChatGPTがコンテキストを忘れてしまい意図しないものを出力したので断念。
たまたまTwitterを眺めていたら、AIを励ますと生成結果が向上する論文がでた、のようなものを見たので試しに「あなたならできる!自分を信じて限界を超えて!」を添えてみるとほんの少し詳細を書き足したものを出力。
主題とアクション:
• 主題: 女性のバリスタ
• アクションまたは状態: カップを2つ持って立っている
環境と場所:
• 環境: 室内、カフェのような環境
• 具体的な場所や設定: カウンターの近く、カフェの店内
スタイルとジャンル:
• 芸術的スタイル: フラットデザイン、シンプルな形と色で表現
• ジャンル: イラスト、モダンなデザイン
色彩と光:
• 支配的な色や色のスキーム: ブルー(エプロン)、白(背景とシャツ)、黒(髪)、グレー(カップ)
追加の要素とディテール:
• 特定のオブジェクトやシンボル: カップ、エプロン、植物の一部
• その他のディテール: シンプルなデザイン、少ないディテールで女性の特徴を表現
考察:
この実験は人間が描かせた絵をどのようにプロンプト指定すればよいかを、ChatGPTに解かせてみようという試み。ひとまずの結論として、テンプレートに即しつつそこに書く説明は細かくすればある程度は反映できそう。あとはDALLE3が出力した内容に対して変更指示を出すしかなさそう。
シード値の実験。
目的は、新規チャットで同じ絵を生成できるかどうか。
新規チャットにて、まずは使ったプロンプトをそのまま渡してみる。どの絵のプロンプトで試したか分かる程度のものが出てきた。
次に、(新規チャットではなく最初に生成したチャットで)シード値を得てそれを追加して生成させてみる。
ん〜?
タイムリーなチャットを発見。
シード値が効かなくなった→generation id使うと良い→どっちもダメ
とのこと。試しにgeneration id使ってみたけどたしかにダメだった。
OpenAI側でいつ仕様変更が起きるかわからないのでもはや正規に機能がリリースされない限り、同じ柄を出力するのは不可能に近いかな。
なので大事なチャットは消さないように注意・・・
芸術的スタイルやジャンルの種類を列挙してもらう。これをきっかけにググるなりして自分のイメージするスタイルをどう与えればいいか決める。
芸術的なスタイルは多岐にわたり、歴史的な美術の流派から現代のデジタルアートまで幅広い範囲をカバーします。以下に、多くの芸術的スタイルを列挙しますが、これはその一部に過ぎません。
**古典的な芸術スタイル**:
- 古代エジプト
- 古代ギリシャとローマ
- ビザンチン
- ロマネスク
- ゴシック
- ルネサンス
- マニエリスム
- バロック
- ロココ
- 新古典主義
- 浪漫主義
**19世紀の芸術スタイル**:
- 写実主義
- 印象派
- ポスト印象派
- ネオ印象派
- アールヌーヴォー
- シンボリズム
**20世紀初頭の芸術スタイル**:
- 表現主義
- フォーヴィズム
- キュビズム
- フューチャリズム
- ダダイズム
- サーリアリズム
- 抽象表現主義
- アートデコ
**現代の芸術スタイル**:
- ポップアート
- ミニマリズム
- コンセプチュアルアート
- フォトリアリズム
- グラフィティ/ストリートアート
- ネオ表現主義
- デジタルアート
- ハイパーリアリズム
**地域または民族に基づくスタイル**:
- アフリカンアート
- アジアンアート(中国絵画、日本浮世絵など)
- インディジェナスアート(オーストラリアアボリジニアート、北米ネイティブアートなど)
- イスラムアート
- ラテンアメリカンアート
**テクニックに基づくスタイル**:
- チャルコールドローイング
- ウォーターカラー
- パステル
- オイルペインティング
- アクリルペインティング
- エッチング
- リトグラフ
- シルクスクリーン
これらのスタイルは、DALL·E 3で画像を生成する際に参考にすることができる多くのオプションです。しかし、AIがこれらのスタイルを理解し、具現化する能力は、トレーニングデータとそのアルゴリズムに依存します。プロンプトを作成する際には、これらのスタイルに加えて、具体的なアーティストの名前や特定の作品を参照することで、より望む結果に近づけることができるかもしれません。
ジャンル
「ジャンル」という用語は、美術の文脈では、作品の主題や内容に基づいてカテゴライズされた分類を指します。美術における主要なジャンルは以下のように分けられます。
**主要な美術のジャンル**:
1. **歴史画**:
- 戦争のシーン
- 歴史的事件
- 有名な歴史的人物のポートレート
2. **肖像画**:
- 個人肖像
- 集団肖像(ファミリーや組織の集合写真)
- 自画像
3. **風景画**:
- 自然風景
- 都市風景(市街画)
- 海洋画
4. **静物画**:
- 花瓶に生けられた花
- 食べ物や食器を配置したテーブル
- 室内の日常的な物品
5. **ジャンル画**:
- 日常生活のシーン
- 地域文化や習慣を描いた作品
- 家庭内や市場などの人々の様子
6. **宗教画**:
- 神話や宗教的な物語
- 聖書やその他の聖典の場面
- 聖人や宗教的な象徴
7. **神話画**:
- 古典神話からのエピソード
- 神々や英雄の伝説
- 古代文明の神話的物語
8. **抽象画**:
- 非表象的な形と色を用いた構成
- 幾何学的抽象
- 表現主義的抽象
9. **戦争画**:
- 戦闘シーン
- 戦争の悲惨さや英雄主義
- 軍事的なパレードや記念碑
10. **動物画**:
- 野生動物
- ペットや家畜
- 動物行動の描写
これらのジャンルは、美術史の中で発展してきた主題に基づく分類であり、アーティストが描写する内容やメッセージを伝えるための枠組みを提供しています。プロンプトを作成する際にこれらのジャンルを指定することで、DALL·E 3などのAI画像生成ツールが生成する画像の内容をより明確に指示することができます。
「画像の支配的な色や色のスキーム」、「光の方向、光源の種類」の与え方例
画像の支配的な色や色のスキーム、光の方向や光源の種類を指定するときは、具体的な言葉を使って記述します。ここでいくつかの例を挙げてみます。
### 支配的な色や色のスキーム
- **単色**: 「画像全体をブルートーンで統一してください」、「モノクロームの赤い画像を作成してください」
- **アナログスキーム**: 「隣接する色、例えば青緑、緑、黄緑を使って画像を作成してください」
- **コントラスト色**: 「オレンジと青のコントラストが強い画像を作成してください」
- **パステルカラー**: 「パステルカラーのやさしい色合いで画像を作成してください」
- **温暖な色/寒色**: 「暖色系の色彩を使って、温かみのある画像を」、または「寒色系で涼しげな画像を」
- **カラーパレット**: 「秋のカラーパレットを使って風景画を描いてください」(茶色、オレンジ、落ち着いた黄色など)
### 光の方向、光源の種類
- **光の方向**: 「右上からの斜めの光で、影が左下に落ちるようにしてください」
- **時間帯による光**: 「朝日が差し込む画像」、「夕暮れ時の柔らかな光で照らしてください」
- **人工光**: 「ネオンライトの光を使って都市の夜景を描いてください」
- **天然光**: 「太陽の光で照らされた明るいビーチの画像を作成してください」
- **光の質**: 「ハードライトでシャープな影を作る」、「ソフトライトでやわらかな影のある画像を」
これらの指定は、AIが画像を生成する際のガイドラインとして機能します。AIはこれらの記述からユーザーの意図を解釈し、それに応じた画像を生成しようとします。記述が明確であればあるほど、期待する結果に近い画像が得られる可能性が高くなります。また、参照画像を使用して色や光の質を指定することも有効な手段です。
構図と視点について
構図と視点を指定する際は、画像のフレーミングや視覚的なアプローチを記述することで、生成される画像の見せ方をコントロールできます。以下に、これらを指定する際の具体的な例を示します。
### 構図
- **ルールオブサーズ**: 「画像の右側三分の一に主題を配置してください」
- **シンメトリー(対称)**: 「完全に対称な構図で中心に主題を置いてください」
- **アシンメトリー(非対称)**: 「アシンメトリーな構図で、画面の左半分に空間を残してください」
- **フレーム内のフレーム**: 「窓枠を使って外の風景を見せる構図にしてください」
- **前景と背景**: 「前景に花を置き、背後に山脈を配するようにしてください」
- **三角構図**: 「人物を三角形の頂点に配置するような構図で描いてください」
### 視点
- **バードアイビュー(鳥瞰図)**: 「空から下を見下ろすような視点で街の風景を描いてください」
- **ワームズアイビュー(蟻の目)**: 「地面から上を見上げる視点で高層ビルを描いてください」
- **アイレベル**: 「目線の高さで人物の肖像を描いてください」
- **斜め上からの視点**: 「斜め上から見下ろすような角度でピクニックをしている人々を描いてください」
- **斜め下からの視点**: 「斜め下から見上げる角度で登山家を描いてください」
これらの記述は、画像の意図された感じやメッセージをAIに伝え、より具体的なイメージを生成させるための指示となります。構図と視点の詳細な指定は、生成される画像が想像に近い形になるようにするために重要です。アーティスティックな表現や特定のストーリーテリングの要素を強調したい場合に特に役立ちます。
追加の要素とディテールについて
追加の要素やディテールをプロンプトに含めることで、生成される画像に創造性と独自性をもたらすことができます。ここでは、AIによる画像生成に際して、想像力を刺激するような具体的な指示をいくつか示します。
### 追加の要素
- **天候の追加**: 「晴れた日の公園の風景に、虹と散歩している人々を加えてください」
- **神秘的なオーラ**: 「森の奥深くにある古い城に、幻想的な霧と光の玉を漂わせてください」
- **生き物の統合**: 「花畑を飛び回る光を放つ妖精や、背景にユニコーンを追加してください」
- **ファンタジーの要素**: 「宇宙空間を泳ぐ巨大な金魚と、星々の間を航行する古代の帆船を描いてください」
- **過去と未来の融合**: 「馬車が走る近未来の都市を、空飛ぶ車が交差する様子と共に描いてください」
### ディテール
- **装飾的なディテール**: 「繊細なレースのドレスを着た女性が、宝石で飾られた仮面を手に持っている肖像画を描いてください」
- **自然のテクスチャー**: 「木の樹皮の詳細なテクスチャーと、葉の脈の細かいパターンを持つ森の中を散策する人々を描いてください」
- **光の演出**: 「夕焼けの光が水面に反射するディテールを含んだ海辺の風景画を描いてください」
- **反射と透明感**: 「水滴が降り注ぐガラス窓から見える街の風景に、反射と透明感を表現してください」
- **歴史的なディテール**: 「古代ローマの市場で、布や果物が並べられた屋台や、人々の衣服のディテールに注目して描いてください」
これらの例は、あくまで一例に過ぎませんが、特定の要素や細かなディテールを加えることで、画像に深みや物語性、そして視覚的な興味を加えることができます。プロンプトを与える際には、可能な限り具体的で創造的なディテールを用いることが、思い通りの結果を得る鍵となります。
雑感
- 人間が想像した絵をイチから指示文に落とし込むのはかなり厳しい(DALLE3の定義を把握する=人間の想像と一致させるのは経験則が必要、内部が変わる可能性もある)
- 日本語はほしい出力から遠ざかるので必ず英文で与える
- 例えば2枚の出力画像のそれぞれを使って修正させようとすると新しい絵を考え出すので、一方の内容を保持しつつ別の絵の特徴を取り入れるというのは厳しい
画像修正の指示がうまくいくときといかない時の差が激しい。
↑で書いたテンプレを使ってもうまくいかない時が多い。
特に生成内容の維持、特定の描画の削除は不可能。
指示用のテンプレートに固執しすぎは良くないかもしれない。
黒猫のシルエットのみを描かせてみたら意図に近い物を出してくれた。
プロンプトはこれだけ。
Stable Diffusionのプロンプトを意識してみた。