論文: TIPO: Text to Image with Text Presampling for Prompt Optimization

ここで知った。
https://x.com/rohanpaul_ai/status/1905679791929655415
シンプルなユーザー入力から、Text-to-Imageモデルに必要な詳細なプロンプトを作成することは、困難で非効率的である。
TIPO（Prompt OptimizationのためのText Presamplingを用いたText-to-Image）は、軽量なモデルを使用して、シンプルなプロンプトを詳細なものに洗練させる。
通常、単に「猫」などのシンプルなアイデアを入力するだけでは、画像はまあまあかもしれないが、素晴らしいものにはならない。本当に優れた画像を得るためには、「窓辺に座るふわふわのジンジャー猫、フォトリアリスティックなスタイル、詳細な毛並み、朝の光、傑作」といった、非常に長く詳細な説明（プロンプト）を記述する必要がある。これらの詳細なプロンプトを書くのは大変な作業である！
TIPOは自動プロンプト強化ツールのようなものである。
ユーザーはTIPOにシンプルなアイデア（例：「猫」）を与える。
TIPOは、小型で賢い補助AIを使用して、AI画像生成器が好む詳細（画像生成器がもともと学習した数百万の説明に基づく）を学習している。
それは、元のアイデアを維持しながら、スタイル、ライティング、品質キーワード、具体的な詳細などを追加し、シンプルなアイデアを自動的にはるかに詳細かつ効果的なプロンプトへと拡張する。
📌 TIPOは、より良い画像の忠実度を実現するために、Text-to-Imageモデルの学習分布にプロンプトを合わせる。
📌 軽量モデルは、コストのかかるLLMとは異なり、タグや自然言語などの複数のタスクを効率的に洗練させる。
📌 マルチタスク学習により、タグと自然言語プロンプトの柔軟で段階的な洗練が可能となる。>
→ これにより画像品質が向上し、ユーザーの好み調査において最大62.80%の勝率を達成している。
論文
https://arxiv.org/abs/2411.08127

kun432

Claude-3.7-Sonnetによる落合プロンプトの結果

TIPO：テキスト事前サンプリングによるテキスト画像プロンプト最適化

1. どんなもの？

TIPOは「Text-to-Image Prompt Optimization」（テキストから画像へのプロンプト最適化）の略で、テキストから画像生成(T2I)のためのプロンプト（指示文）を自動的に洗練させる効率的なアプローチです。シンプルなユーザープロンプトから始めて、軽量な事前学習モデルを活用し、より豊かで詳細なバージョンに拡張します。概念的には、TIPOは広い意味空間内の特定のサブ分布からプロンプトをサンプリングし、元の意図を保持しながら視覚的な品質、一貫性、詳細さを大幅に向上させます。

T2Iモデルを使った高品質な画像生成には通常、詳細なプロンプトが必要ですが、それを作成するには専門的な知識が必要となります。TIPOはこの問題を解決し、簡単な指示からでも高品質な画像が生成できるようにする技術です。大規模言語モデル(LLM)や強化学習(RL)ベースの手法と異なり、計算効率とスケーラビリティに優れています。

2. 先行研究と比べてどこがすごい？

既存のプロンプト最適化手法と比較したTIPOの優位点は以下の通りです：

計算効率: LLMや強化学習を使用する手法と異なり、TIPOは軽量モデルを使用するため計算コストが低く、実用的な応用が可能です。

汎用性: 特定のT2Iモデルに最適化されたPromptistなどの手法と異なり、TIPOは様々なT2Iモデルに対して一般化できるプロンプト書き換えに焦点を当てています。

データ活用: 3000万以上のテキスト画像ペアサンプルと200億以上のトークンを含む大規模データセットで訓練されており、T2Iモデルの訓練データ分布と高い整合性を持っています。

人間の好みとの整合性: 人間の好みに関する実験では、TIPOは最大62.80%の勝率を示し、ランタイム効率では次点の手法と比べて25%の向上を達成しています。

3. 技術や手法の肝はどこ？

TIPOの中核となる技術は「テキスト事前サンプリング」と呼ばれるアプローチです：

構造化プロンプトスキーマ: タグベースと自然言語ベースの両方のキャプションを統一したテキストセットとして表現し、T2Iモデルの訓練データと互換性のある形式に整理します。

マルチタスク言語モデル: タグや短い文から詳細な説明へと段階的に変換する様々なタスク（short_to_tag、tag_to_long、short_to_longなど）に対応する言語モデルを訓練しています。

プログレッシブリファインメント: ユーザー入力に対して単純なテキスト補完を行うのではなく、複数のタスクを組み合わせて段階的にプロンプトを洗練させていきます。これにより元の意図を保ちながら、詳細で多様なプロンプトが生成できます。

データフォーカス: T2Iモデルの学習に使用されたテキスト分布に合わせたプロンプト生成に焦点を当てており、モデルが理解しやすいプロンプトを生成します。

4. どうやって有効だと検証した？

TIPOの有効性は以下の評価方法で検証されています：

定量的評価: FDD（Frechet Dino Distance）、審美スコア、AI破損スコア、Vendiスコアという4つの最新メトリクスを使用して、生成された画像の品質を測定しました。

in-domainとout-of-domainの評価: TIPOの訓練で使用したデータセットと重複するテキスト分布を持つモデル（in-domain）と、独自のテキスト分布を持つモデル（out-of-domain）の両方でテストを行いました。

人間の好み評価: 1,400以上の画像に対して221名のボランティアによる比較評価を実施し、TIPOが51.3%という最高の総合勝率を達成しました。out-of-domainシナリオでは勝率が52.5%に上昇し、異なるコンテキストでの一貫した強いユーザー好みを示しました。

アブレーション研究: 異なるプロンプト形式や拡張方法を比較し、TIPOの各コンポーネントの貢献度を評価しました。

5. 議論はある？

論文では以下の議論点と将来の研究方向が挙げられています：

パーソナライゼーションとユーザー適応: 現在のTIPOはLoRAなどのパーソナライゼーション手法を直接組み込んでいません。個々のユーザー好みに合わせた出力を生成するための統合トレーニング戦略の研究が将来の方向性として提案されています。

珍しい組み合わせへの一般化: TIPOは典型的で広く表現されている概念に対して効果的に機能しますが、「アボカドの椅子」のような非常に変わった組み合わせに対しては課題があるかもしれません。より広い構成的堅牢性を確保するための補助的なトレーニングや適応方法の探索が必要です。

容量とバックボーンのスケーラビリティ: TIPOモデルのアーキテクチャ（LLaMAベース）を考えると、高度に複雑または長いプロンプトを処理する能力に固有の制限がある可能性があります。リアルタイム推論効率を損なわずに構成的および意味的容量を向上させる、より広範または専門的なアーキテクチャの調査が将来の課題です。

6. 次に読むべき論文は？

この研究をさらに深めるために読むべき論文は以下の通りです：

Promptist [26] - 強化学習を用いたプロンプト最適化手法で、CLIPの関連スコアを報酬として使用します。TIPOの比較対象として重要です。

PAE [44] - Promptistのアプローチを拡張し、離散的なテキストトークンではなく密なテキスト埋め込みを生成する手法です。

CogView3 [71] - GLM-4を活用したプロンプト最適化の別のアプローチです。

Lee et al. [33] - GPT-JとText Style Transfer (TST)技術を採用したプロンプト強化手法です。

MagicPrompt [17] - T2Iモデルユーザーから収集した高品質プロンプトでGPT-2をトレーニングする手法です。

kun432

構造化プロンプトスキーマというのはどういうものですか？

構造化プロンプトスキーマについて詳しく説明します。

TIPOが提案する構造化プロンプトスキーマは、テキストから画像生成(T2I)モデルに入力するプロンプトを整理して効果的に構造化する方法です。

この仕組みには以下の重要な特徴があります：

統一フォーマット化: 様々な種類の画像キャプション（タグベースと自然言語ベース）を共通の形式に統一します。これにより、異なるT2Iモデルとの互換性が高まります。

メタデータの組み込み: プロンプト内に「カテゴリ: コンテンツ」という形式でメタデータを含めます。例えば、quality: masterpiece, artist: Picasso, aspect_ratio: 1.0のようなメタデータを構造化して組み込みます。これによりT2Iモデルに生成範囲の明確なガイダンスを提供します。

階層的な情報構造: プロンプトを「タグセット」と「自然言語記述」という階層に分けて管理します。タグは主に対象物や属性を示し、自然言語記述はそれらの関係や空間的な配置を記述します。

長さの制御: プロンプトの長さを体系的に制御するために、<long>, <short>などの特定の長さタグを使用します。これにより、タグの数や自然言語文の長さに特定の制約を設けています。

例えば、シンプルなユーザー入力である「1人の女の子が、居心地の良いカフェに座って、手にコーヒーカップを持っている」というプロンプトがあった場合、TIPOの構造化プロンプトスキーマでは以下のように変換されます：
meta: absurdres
rating: safe
artist: [アーティスト名]
quality: masterpiece, newest
aspect_ratio: 1.0
1girl, solo, sitting, closed mouth, jewelry, long hair, looking at viewer, crossed legs, plant, table, couch, bracelet, cup, smile, teacup, indoors, blue eyes, blonde hair, holding,

A girl sits in a cozy cafe, cradling a cup of coffee in her hand. The cafe has large windows with green plants on the walls and a wooden table in front of her. Behind her is a staircase leading to another room. The overall atmosphere of the image is serene and inviting.
このように、タグベースの記述（コンマ区切りの単語リスト）と自然言語ベースの記述（流れるような文章）の両方を含む構造化されたプロンプトを生成します。これにより、T2Iモデルは元のシンプルな入力から、より詳細で豊かな情報を持ったプロンプトを受け取ることができ、高品質な画像生成が可能になります。

この構造化アプローチの大きな利点は、ユーザーが理解しやすく編集しやすい形式でありながら、T2Iモデルにとっても処理しやすい形式になっていることです。また、この形式は多くの異なるT2Iモデルで共通して使える汎用性の高いものとなっています。

この変換はどのモデルを使用して行われるのでしょうか？

TIPOの変換プロセスで使用されるモデルについて詳しく説明します。

TIPOはプロンプト変換のために、論文著者らが特別に設計・訓練した軽量な言語モデルを使用しています。具体的には、LLaMAアーキテクチャをベースとした以下の複数のモデルバリエーションが開発されています：

TIPO-100M: 約1億パラメータの小型モデル。基本的な変換機能を提供します。

TIPO-200M: 約2億パラメータのモデル。2段階の訓練プロセスを経ています。

第1段階: GBC（Graph-Based Captioning）データセットとDanbooru2023データセットで事前訓練

第2段階: Coyo HD 11M、GBC10M、Danbooru2023データセットで微調整

TIPO-500M: 約5億パラメータの最大モデル。Coyo HD 11M、GBC10M、Danbooru2023データセットで事前訓練されています。

これらのモデルは、非常に特殊なトレーニング方法で学習されています。単なる一般的な言語理解ではなく、T2Iモデルが理解しやすいプロンプト生成に特化しています。トレーニングデータには：

Danbooru2023: アニメスタイル画像に関する詳細なタグ付きデータセット

GBC10M: グラフベースのキャプショニングアプローチを用いた1000万画像のデータセット

Coyo HD 11M: 高解像度、高コンセプト密度の1140万画像とそのキャプション

これらを使用しており、合計で3000万以上の画像-テキストペアと200億以上のトークンが学習に用いられています。

モデルは単一のタスクではなく、複数の変換タスクを同時に学習する「マルチタスク学習」アプローチが採用されています：

tag_to_long: タグをメタデータとして使用し、新しい自然言語プロンプトを生成

long_to_tag: 自然言語プロンプトをメタデータとして使い、タグシーケンスを拡張

short_to_tag: シンプルなプロンプトをメタデータとして使用し、タグシーケンスを拡張

short_to_long: ユーザー提供の自然言語プロンプトをメタデータとして使用し、洗練された詳細なプロンプトを生成

さらに、複数のタスクを一度に実行する複合タスクも学習されています：

short_to_tag_to_long

short_to_long_to_tag

tag_to_short_to_long

実際のプロンプト変換時には、入力タイプに応じて最適なタスクを選択し、段階的に変換を行います。例えば、ユーザーがタグのみを入力した場合は「short_to_tag」から始めてタグを拡張し、次に「tag_to_long」で自然言語記述を生成するといった流れです。

モデルは単なるテキスト生成ではなく、プロンプトの長さや詳細度を制御するための特殊なトークン（<|very_short|>, <|short|>, <|long|>, <|very_long|>など）も使用します。

この特化型モデルアプローチにより、一般的な大規模言語モデル（GPTなど）よりも効率的にT2Iモデル用の高品質プロンプトを生成できるようになっています。また、より小さなモデルサイズにより、実用的な速度での推論（RTX 3090で0.81秒、RTX 4090で0.63秒）を実現しています。

このモデルは公開されていますか？

はい、TIPOモデルは公開されています。論文の著者たちはコードとトレーニング済みモデルを公開しており、GitHubリポジトリで入手可能です。

リポジトリのURLは論文の冒頭で次のように記載されています：
Code: https://github.com/KohakuBlueleaf/KGen
このリポジトリには、論文で説明されている「TIPO」モデルの実装やトレーニング済みの重みファイル、そして使用方法に関するドキュメントが含まれています。これにより、研究者やデベロッパーは自分のプロジェクトでTIPOを使用したり、さらなる研究のためにモデルを拡張したりすることができます。

リポジトリには恐らく以下のような内容が含まれているでしょう：

モデルアーキテクチャの実装コード（LLaMAベース）

トレーニング済みの各バリエーションのモデル重み（TIPO-100M、TIPO-200M、TIPO-500M）

モデルを実行するためのインターフェースやユーティリティ

サンプルプロンプトとその結果の例

モデルの統合方法に関するドキュメント

このようなモデルのオープンソース化は再現性を確保し、コミュニティでの更なる発展を促進するという点で科学研究において重要なステップです。論文の結論部分でも著者らは「より広い採用を促進し、再現性を容易にするために、トレーニング済みモデルとソースコードを公開する」と述べており、オープンな研究へのコミットメントを示しています。

テキストから画像への生成に関心がある方は、このリポジトリを参照して実際にTIPOを試してみることができます。

コードはここにあった

モデルもこちら

このスクラップは6ヶ月前にクローズされました