🤖

# GPT-Image-1 エディットモードとリファレンスモード徹底攻略ガイド — 実務で迷わない二刀ない二刀流ワークフロー

に公開

はじめに

生成 AI で画像を扱うプロフェッショナルにとって、GPT-Image-1 の「エディットモード」と「リファレンスモード」を正しく理解し、使い分けることは必須です。本稿では両モードの仕組み・API 呼び出し方・ユースケース・料金最適化・コンプライアンス対応までを網羅的に解説します。


GPT-Image-1 の基礎知識

特徴

  • テキストと画像を同時に処理する多モーダルモデル
  • 最大 1536 px の高解像度生成
  • トークン制課金(テキスト+入力画像+出力画像)

よく使うエンドポイント

  • /v1/images/edits
  • /v1/images/generations

エディットモードとは

仕組み

  • 入力画像のピクセルを保持し、マスクの透明領域だけを書き換える
  • PNG 透過マスクで保護領域と編集領域を指定
  • 最大 10 枚の画像を同時に渡し、合成した 1 枚を生成可能

代表的ユースケース

  • 写真のゴミ取り・色味修正
  • 商品写真の背景差し替え
  • マルチカメラ画像のコラージュ

API 呼び出し例(curl)

curl https://api.openai.com/v1/images/edits \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -F model="gpt-image-1" \
  -F image="@input.jpg" \
  -F mask="@mask.png" \
  -F prompt="空を夕焼けに変え、星を追加してください" \
  -F size="1024x1024"

ベストプラクティス

  • マスク境界を 1–2 px ぼかし自然な合成
  • 送信前に画像を 1024 px 程度にリサイズしコスト削減
  • レイヤー順を意識し複数画像のマスクを設計

リファレンスモードとは

仕組み

  • 参照画像を「スタイル・構図のヒント」として入力
  • 出力は完全新規ピクセルで構成され、元画像は改変されない
  • 最大 10 枚の参照画像で一貫性を保ちながら新規生成

代表的ユースケース

  • 同キャラクターの別ポーズ量産
  • ブランドトーン統一の広告素材制作
  • コンセプトアートのカラースクリプト作成

API 呼び出し例(Python)

from openai import OpenAI
client = OpenAI()

with open("hero_pose.jpg", "rb") as img:
    res = client.images.generate(
        model="gpt-image-1",
        prompt="同じキャラクターが座って読書しているシーン",
        image=[img],
        n=1,
        size="1024x1536"
    )
print(res.data[0].url)

ベストプラクティス

  • 主題が大きく写った参照画像を選択
  • 異なる角度やライティングを混在させ汎化性能向上
  • 顔の一致が重要なら 3〜5 枚程度が最適

モード選択早見ガイド

  • 既存写真の細部修正 → エディットモード
  • 同キャラの新規ポーズ → リファレンスモード
  • 背景と前景をまとめて刷新 → リファレンス → エディットで仕上げ
  • 完全新規生成 → 参照画像なしで /images/generations

併用ワークフロー例

  1. リファレンスモードでキャラクターの新規バストアップ生成
  2. 生成結果をエディットモードに渡し背景のみ差し替え
  3. 必要に応じ小物やテキストを追記し完成

この二段構えで「一貫性」と「編集自由度」を両立できます。


パラメータ詳細

size

  • 1024×1024:汎用
  • 1024×1536 / 1536×1024:ポスター・バナー向け(高コスト)

quality

  • low / medium / high / auto
  • high は生成トークン数増加だがディテール向上

background

  • transparent / solid
  • 透過 PNG 希望時は transparent とプロンプトの両方で指定

output_compression

  • 0–100(PNG は非可逆圧縮なし、JPEG は品質=100−圧縮率)

料金最適化のポイント

  • 冗長な形容詞を削除しプロンプトを簡潔に
  • 編集範囲が小さい場合でも画像全体を送るため解像度を抑える
  • ステージングでは quality="low"、本番は medium 以上

コンプライアンスと品質管理

  • 有名人や商標に極端に似た生成物は拒否される可能性
  • OpenAI 画像ポリシーの最新版を確認
  • 顔が微妙に変形することがあるためリタッチ工程を用意

よくあるエラーと対処法

  • Rate limit reached

    • 60 秒待機し指数バックオフを実装
  • Image policy violation

    • プロンプトや参照画像からロゴ・著名人要素を除去
  • Mask size mismatch

    • imagemask の寸法・形式を完全一致させる

まとめ

  • エディットモード=部分修正、リファレンスモード=スタイル継承新規生成
  • 両モードを組み合わせることで高品質かつ柔軟な制作フローが実現
  • コスト・品質・法的リスクを常に意識しパラメータを調整する

次のアクション

  • 小規模画像で両モードを試して挙動を把握
  • 社内パイプラインに併用ワークフローを組み込み効率化
  • プロダクション投入前に必ずコンプライアンスレビューを実施

以上で GPT-Image-1 の二刀流活用法を解説しました。ぜひ現場で活用し、クリエイティブを加速してください。

Discussion