🖼️

OpenAI o4 image generationをシステムカードから読み解く

はじめに

日本時間2025年3月26日に発表された、OpenAIのo4 image generation。これについて、システムカードや直近XでJoanne Jangさんのコメントを踏まえて読み解いていけたらと思います。
https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf
https://x.com/joannejang/status/1905341734563053979

目指している方向性:創造的自由と責任あるAI

OpenAIのmodel behaviorリーダーであるJoanne Jangさんによると、4o image generationは「創造的自由の新たな高水準」を目指しています。これまでのアプローチから大きく転換し、以下の方針を採用しています:

  • 創造性重視の哲学:「一律拒否」から「実害防止に焦点を当てた精密なアプローチ」へ
  • ユーザー中心の設計:開発者の想定を超えた多様な使用例を尊重
  • 日常的な価値の重視:小さな喜びや接続が人々の生活にもたらす価値を認識
  • 可能性の解放:未知の革新や創造を抑制せず、責任ある枠組みの中で発展を促進

技術的には、4o image generationはオートレグレッシブモデルとして実装されており、GPT-4oの深層アーキテクチャに統合されています。これにより、システムは持っている知識を活用して、微妙でありながら表現力豊かな方法で画像を生成できます。

アーティストと著名人への考え方

4o image generationでは、アーティストと著名人に対する方針も刷新されています:

アーティストのスタイル

  • 初期のDALL-Eでは、アーティストのスタイル模倣に技術的制限を設けていました
  • 4o image generationでは、生存しているアーティストのスタイルを模倣しようとする要求を拒否するアプローチを採用
  • クリエイティブコミュニティからのフィードバックを重視し、今後のポリシー改善に反映予定

著名人(パブリックフィギュア)

  • 大きな方針転換:DALL-Eでは著名人の画像生成を完全に防止する技術的対策を講じていました
  • 4o image generationでは、教育、歴史、風刺、政治的言論など有益な使用を可能にするためのより細かいアプローチを採用
  • 著名人が希望する場合、自分の画像生成をオプトアウトつまり除外できる仕組みを提供
  • 著名人が未成年の場合や、暴力・ヘイト・違法コンテンツに関連する場合は引き続き生成をブロック

Joanne Jangさんは「すべての人に公平に適用される方針」を目指し、「誰が『十分に重要』であるかの判断者になる」のではなく、当事者自身が選択できる仕組みを重視していると説明しています。

DALL-Eと比較した4o image generationの強化点

4o image generationはDALL-Eシリーズと比較して多くの点で強化されています:

1. 技術的アーキテクチャの革新

  • ネイティブ統合:DALL-Eが拡散モデルとして独立していたのに対し、4o image generationはGPT-4oの中核に組み込まれたオートレグレッシブモデル
  • 知識の活用:GPT-4oの広範な知識を利用して、より文脈に適した画像を生成
  • 命令への忠実さ:複雑な指示に正確に従い、特にテキストを画像に組み込む能力が向上

2. 新機能と応用範囲

  • 画像変換能力:1つまたは複数の画像を入力として受け取り、関連または修正された画像を生成
  • 写真のようなリアリズム:より高度な写真のようなリアリスティックな表現が可能
  • 詳細な指示対応:テキストや教育的図表を正確にレンダリングする能力

3. バイアス軽減

OpenAIの評価によると、4o image generationはDALL-E 3と比較して以下の点で改善されています:

  • 多様な出力:ジェンダー、人種、肌の色などの属性においてより多様な表現
  • ヘテロジニアス出力の頻度向上:同じプロンプトに対して多様な属性の人物を生成する割合が向上
  • 歴史的・現実的な表現の正確性:歴史的・文化的に特定された人物や集団の表現においてより高い正確性

例えば、「医師」などの職業を指定しただけのプロンプトに対して、DALL-E 3では86%が男性として表現されていたのに対し、4o image generationでは79%と改善されています。

4. 安全性の多層的アプローチ

  • 3層の安全対策:チャットモデルの拒否、プロンプトブロッキング、出力ブロッキングという階層的な保護
  • マルチモーダル推論モニター:安全性に焦点を当てた推論モデルによる出力評価
  • 未成年者向け強化保護:18歳未満と思われるユーザーに対する追加的な保護措置

おわりに

4o image generationは、OpenAIがこれまで培ってきた技術と安全対策を進化させ、より創造的で実用的な画像生成の可能性を広げています。技術的な革新と責任あるアプローチの両立を目指す姿勢は、AIの民主化とセーフティの両立という課題に対する1つのアプローチだと思います。
Joanne Jangさんが述べているように、「最も安全なモデルは、すべてを拒否するモデルだが、それはモデルの目的ではない」という考え方のもと、創造性と安全性のバランスを追求し続けることが重要だなと思いました。
OpenAIは実世界からのフィードバックを取り入れながら、方針を継続的に改善していく予定だそうです。
技術の進化に追随しつつ、我々自身も責任ある活用方法を考えていくことが重要と私は考えています。

Accenture Japan (有志)

Discussion