Zenn
Closed4

gpt-4oの画像生成を試す

kun432kun432

https://openai.com/index/introducing-4o-image-generation/

GPT-4oの画像生成は、テキストを正確にレンダリングし、プロンプトに正確に従い、4o固有の知識ベースとチャットコンテキストを活用することに優れています。 これらの機能により、イメージ通りの画像を簡単に作成することができ、ビジュアルを通じてより効果的なコミュニケーションを支援し、画像生成を正確で強力な実用的ツールへと進化させます。

ざっと見た感じ

  • コンテキストに基づいて一貫性のある画像生成ができる
  • テキストを生成できる
  • プロンプト追従性が高く、一度の多くのオブジェクトを扱える
  • 画像をアップロードして、インコンテキストとして学習できる
  • モデルの豊富な知識を元により適切な画像を生成できる
  • 多様なスタイルで学習されている

って感じ?あと公式の記事はサンプル例が豊富なので、何ができるか?がわかりやすいし、見てるだけでも楽しいので一読をおすすめ。

とりあえずAPIはまだ公開されていないが、軽くChatGPTで試してみた。

kun432kun432

現状の制約

制限事項

私たちのモデルは完璧ではありません。 現時点では複数の制約があることを認識しており、初回発売後にモデルの改良を通じて対処する予定です。

  • 切り抜き
    私たちは、GPT-4o が時折、ポスターのような長い画像を、特に下部付近できつく切り取りすぎることがあることに気づきました。
  • ハルシネーション
    私たちの他のテキスト モデルと同様に、画像生成も、特にローコンテキストのプロンプトで情報をでっち上げることがあります。
  • 高い拘束力の問題
    知識ベースに依存する画像を生成する場合、完全な周期表のような10~20以上の異なる概念を一度に正確にレンダリングするのに苦労する可能性があります。
  • 正確なグラフ化
  • 多言語テキストのレンダリング
    モデルは時々ラテン語以外の言語のレンダリング、 特に複雑であればあるほど、文字が不正確であったり、ハルシネーションすることがあります。
  • 編集精度
    タイプミスなど、画像生成の特定の部分を編集するリクエストは必ずしも効果的ではなく、リクエストされていない方法で画像の他の部分を変更したり、より多くのエラーをもたらしたりする可能性があることに気づきました。 私たちは現在、モデルへの編集精度の向上に取り組んでいます。
    私たちは、ユーザーがアップロードした顔への編集の一貫性を維持するのに苦労しているモデルのバグを認識しています。
  • 小さな文字で密な情報
    このモデルは、非常に小さなサイズで詳細情報を表示するよう求められると、苦労することがわかっています。

直るものもあれば直らないものもありそう。

このスクラップは6日前にクローズされました
ログインするとコメントできます