🤖
# GPT-Image-1 エディットモードとリファレンスモード徹底攻略ガイド — 実務で迷わない二刀ない二刀流ワークフロー
はじめに
生成 AI で画像を扱うプロフェッショナルにとって、GPT-Image-1 の「エディットモード」と「リファレンスモード」を正しく理解し、使い分けることは必須です。本稿では両モードの仕組み・API 呼び出し方・ユースケース・料金最適化・コンプライアンス対応までを網羅的に解説します。
GPT-Image-1 の基礎知識
特徴
- テキストと画像を同時に処理する多モーダルモデル
- 最大 1536 px の高解像度生成
- トークン制課金(テキスト+入力画像+出力画像)
よく使うエンドポイント
/v1/images/edits
/v1/images/generations
エディットモードとは
仕組み
- 入力画像のピクセルを保持し、マスクの透明領域だけを書き換える
- PNG 透過マスクで保護領域と編集領域を指定
- 最大 10 枚の画像を同時に渡し、合成した 1 枚を生成可能
代表的ユースケース
- 写真のゴミ取り・色味修正
- 商品写真の背景差し替え
- マルチカメラ画像のコラージュ
API 呼び出し例(curl)
curl https://api.openai.com/v1/images/edits \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-F model="gpt-image-1" \
-F image="@input.jpg" \
-F mask="@mask.png" \
-F prompt="空を夕焼けに変え、星を追加してください" \
-F size="1024x1024"
ベストプラクティス
- マスク境界を 1–2 px ぼかし自然な合成
- 送信前に画像を 1024 px 程度にリサイズしコスト削減
- レイヤー順を意識し複数画像のマスクを設計
リファレンスモードとは
仕組み
- 参照画像を「スタイル・構図のヒント」として入力
- 出力は完全新規ピクセルで構成され、元画像は改変されない
- 最大 10 枚の参照画像で一貫性を保ちながら新規生成
代表的ユースケース
- 同キャラクターの別ポーズ量産
- ブランドトーン統一の広告素材制作
- コンセプトアートのカラースクリプト作成
API 呼び出し例(Python)
from openai import OpenAI
client = OpenAI()
with open("hero_pose.jpg", "rb") as img:
res = client.images.generate(
model="gpt-image-1",
prompt="同じキャラクターが座って読書しているシーン",
image=[img],
n=1,
size="1024x1536"
)
print(res.data[0].url)
ベストプラクティス
- 主題が大きく写った参照画像を選択
- 異なる角度やライティングを混在させ汎化性能向上
- 顔の一致が重要なら 3〜5 枚程度が最適
モード選択早見ガイド
- 既存写真の細部修正 → エディットモード
- 同キャラの新規ポーズ → リファレンスモード
- 背景と前景をまとめて刷新 → リファレンス → エディットで仕上げ
- 完全新規生成 → 参照画像なしで
/images/generations
併用ワークフロー例
- リファレンスモードでキャラクターの新規バストアップ生成
- 生成結果をエディットモードに渡し背景のみ差し替え
- 必要に応じ小物やテキストを追記し完成
この二段構えで「一貫性」と「編集自由度」を両立できます。
パラメータ詳細
size
- 1024×1024:汎用
- 1024×1536 / 1536×1024:ポスター・バナー向け(高コスト)
quality
- low / medium / high / auto
- high は生成トークン数増加だがディテール向上
background
- transparent / solid
- 透過 PNG 希望時は
transparent
とプロンプトの両方で指定
output_compression
- 0–100(PNG は非可逆圧縮なし、JPEG は品質=100−圧縮率)
料金最適化のポイント
- 冗長な形容詞を削除しプロンプトを簡潔に
- 編集範囲が小さい場合でも画像全体を送るため解像度を抑える
- ステージングでは
quality="low"
、本番はmedium
以上
コンプライアンスと品質管理
- 有名人や商標に極端に似た生成物は拒否される可能性
- OpenAI 画像ポリシーの最新版を確認
- 顔が微妙に変形することがあるためリタッチ工程を用意
よくあるエラーと対処法
-
Rate limit reached
- 60 秒待機し指数バックオフを実装
-
Image policy violation
- プロンプトや参照画像からロゴ・著名人要素を除去
-
Mask size mismatch
-
image
とmask
の寸法・形式を完全一致させる
-
まとめ
- エディットモード=部分修正、リファレンスモード=スタイル継承新規生成
- 両モードを組み合わせることで高品質かつ柔軟な制作フローが実現
- コスト・品質・法的リスクを常に意識しパラメータを調整する
次のアクション
- 小規模画像で両モードを試して挙動を把握
- 社内パイプラインに併用ワークフローを組み込み効率化
- プロダクション投入前に必ずコンプライアンスレビューを実施
以上で GPT-Image-1 の二刀流活用法を解説しました。ぜひ現場で活用し、クリエイティブを加速してください。
Discussion