🖼️

神威 第三世代 画像生成(要件定義yaml版)

2025/01/03に公開

神威の簡易的なガイドページを作りました 第三世代版です
現在公式さんで簡単操作ガイドを作成されているとのことで繋ぎガイドです

1. 第三世代にアクセスしてログイン

こちら↓
https://3rd.kamui.ai/ja

2. 一旦、トップページのテキスト欄にtestと入れてページ遷移

「test」と入力してテンプレートのyamlのみ生成

現在初期設定されているAPIは(多分)日本語の言語理解力の良さとパフォーマンスのバランスからClaude HAIKUが設定されているのですが、生成するコンテンツやタイミングによってAPIレート制限で全出力がされないことがあります。Anthropicに制限解除の依頼中らしいので一旦はgeminiなどを選択しなおした方がスムーズに行きます

3. gemini or gpt4oを選択

好きなLLMを選択して要望入力後に送信ボタンをクリック
私はなんとなくgemini-2.0-flash-expを選択しています

4. 要件定義yamlのかたまりをチャット欄にそのまま投げる

グリモアと呼ばれる構造を持った要件定義yamlをそのままチャット欄に投げることで
複数の画像が一気に生成できてしまいます。

今回はお菓子の国にいる可愛い蛇の新年の挨拶画像を5枚生成します

5. 要件定義yamlの構造と役割

要件定義yamlは柔軟性を持ったプログラムファイルと呼べるようなもので、あらかじめ必要な要素を階層構造でプライオリティをつけながら役割を明確に分けて定義することで、各種必要な要素がぬけ漏れなくきっちり入れることが可能なフォーマットになっています

※プロンプトだけで制御すると構造がなく柔軟すぎてフォーマットが崩れやすい

要件定義yaml

structure.yaml
src:
  structure.yaml:
    content: |-
      新年の挨拶用画像生成指示
      - 5枚の画像を生成
      - 1枚目のみ3D、他は各アーティストに全力で寄せる
    dependency:
      - src/images/01_3D_polygon.png
      - src/images/02_pollock.png
      - src/images/03_sumie.png
      - src/images/04_basquiat.png
      - src/images/05_kandinsky.png
    agent: "claude-3-5-sonnet-20241022"
    api: ["lumalabs-photon-1"]

  images:
    '01_3D_polygon.png':
      content: |
        3Dポリゴンスタイルで描かれた、お菓子の国にいる可愛い蛇の新年の挨拶画像
        - 極限まで淡いパステルカラーを使い、小さく可愛い蛇がお菓子の国にいる様子を、3Dボリゴンスタイル、マットな質感で
        - 影はほとんど見えないようにする。
      agent: "lumalabs-photon-1"

    '02_pollock.png':
      content: |
        ジャクソン・ポロック風の油絵で描かれた、お菓子の国にいる可愛い蛇の新年の挨拶画像
        - マットな黒い飛び散りで蛇を感じさせる
      agent: "lumalabs-photon-1"

    '03_sumie.png':
      content: |
        雪舟のような山水画風に筆ペンで描かれた、お菓子の国にいる可愛い蛇の新年の挨拶画像
        - 極限まで淡い墨の濃淡で、小さく可愛い蛇がお菓子の国にいる様子を、山水画のスタイルに極限まで寄せて描く
      agent: "lumalabs-photon-1"

    '04_basquiat.png':
      content: |
        バスキア風に描かれた、お菓子の国にいる可愛い蛇の新年の挨拶画像
        - 激しいベタ塗りの筆致
      agent: "lumalabs-photon-1"

    '05_kandinsky.png':
      content: |
        カンディンスキー風に描かれた、お菓子の国にいる可愛い蛇の新年の挨拶画像
      agent: "lumalabs-photon-1"

大枠で2つのブロックに分かれていて、画像自体の内容はcontentを差し替えたり、同じ内容を入れることによって統一性を保ちつつ変化を入れていくことが可能になります

1. 全体の定義ブロック
2. 画像単体の定義ブロック

全体の定義ブロック

今回のプロジェクト全体の指定部、contentの中、1行目にメインプロンプトを、2行目からはリスト形式で指示します。dependencyには生成する画像名とパス、agentにはメインのマネージャーAI、apiには今回使うツールとしてのAPIを記載します

prompt
structure.yaml:
  content: |-
    新年の挨拶用画像生成指示
    - 5枚の画像を生成
    - 1枚目のみ3D、他は各アーティストに全力で寄せる
  dependency:
    - src/images/01_3D_polygon.png
    - src/images/02_pollock.png
    - src/images/03_sumie.png
    - src/images/04_basquiat.png
    - src/images/05_kandinsky.png
  agent: "claude-3-5-sonnet-20241022"
  api: ["lumalabs-photon-1"]

画像単体の定義ブロック

画像単体の指定部、contentの中、1行目に画像のメインプロンプトを、2行目からはリスト形式で指示します

prompt
images:
  '画像名.png':
    content: |
      メインプロンプト、メインプロンプト、メインプロンプト、
      - リスト1
      - リスト2
      - リスト3
    agent: "lumalabs-photon-1"

神威の画像生成はImagen3とLumaを選択できますが、Imagen3は何となく3Dに強く、2Dのイラスト、絵画的表現が苦手な印象があり、Luma AIにしたらスムーズに生成できました
ここら辺は試してみてフィットする方で...!

小さくて見づらいのですが、それぞれの役割を記載しました

6. 実装を押して生成する

画像はプログレスバーが出なくても大丈夫

7. 生成された画像

それぞれ「お菓子の国にいる可愛い蛇の新年の挨拶画像」を共通項目として、作家の特性に寄せた内容で生成してくれています。通常のAI画像生成ツールは英語入力が基本ですが神威の場合は日本語入力でOK!
試しに日本語と英語で比較して見ましたがクオリティは同じになるかと思います。

3Dポリゴン

prompt
3Dポリゴンスタイルで描かれた、お菓子の国にいる可愛い蛇の新年の挨拶画像
- 極限まで淡いパステルカラーを使い、小さく可愛い蛇がお菓子の国にいる様子を、3Dボリゴンスタイル、マットな質感で
- 影はほとんど見えないようにする。

ジャクソン・ポロック

prompt
ジャクソン・ポロック風の油絵で描かれた、お菓子の国にいる可愛い蛇の新年の挨拶画像
- マットな黒い飛び散りで蛇を感じさせる

雪舟

prompt
雪舟のような山水画風に筆ペンで描かれた、お菓子の国にいる可愛い蛇の新年の挨拶画像
- 極限まで淡い墨の濃淡で、小さく可愛い蛇がお菓子の国にいる様子を、山水画のスタイルに極限まで寄せて描く

バスキア

prompt
バスキア風に描かれた、お菓子の国にいる可愛い蛇の新年の挨拶画像
- 激しいベタ塗りの筆致

カンディンスキー

prompt
カンディンスキー風に描かれた、お菓子の国にいる可愛い蛇の新年の挨拶画像

8. 保存してダウンロード

ページ上部の保存ボタンをクリックすることでダウンロードできます。
神威の画面からそのままドラッグすることでダウンロードも可能です

Discussion