Closed2023/12/13にクローズ3

Concept Decomposition for Visual Exploration and Inspiration を見てみる

clip

Stable Diffusion

出典: https://ar5iv.labs.arxiv.org/html/2305.18203

要約の雑要約

創造的なアイディアは、多くの場合、複数の既存概念の組み合わせや変換、修正によって生み出される。ただしその過程では、既存概念をそのまま丸コピするわけではなく、その概念が持つある側面から発想を得ることになる。つまり、新しい創作を行うためには既存の概念を複数の側面に分割することが必要。

この論文では、複数の画像で表される視覚的な概念を階層のツリー構造で表し、視覚的な側面で分解する方法を提案する。ここでは CLIP の潜在空間を利用する。(CLIP は Stable Diffusion とかにも使われるテキストエンコーダーと言われる部分で、画像とテキストのペアで学習されており、画像とテキストの関連性を理解している)。

ツリー内のそれぞれのノードは、事前に学習された概念から分割された概念を表す。ツリーでは、各ノードで無限の視覚的サンプリングの可能性を提供し、ユーザーが関心のあるオブジェクトの隠された一面を知ることができるようになる。各ノードで学習した概念の一面を組み合わせることで、新しい視覚的な概念を作成したり、自然言語を利用し既存概念にそれらのデザインなどを適用することができる。

この例では、「独特なスタイルの熊が描かれた木のオブジェクト」から、「何かが描かれた木のオブジェクト」と「独特なスタイルの熊」に概念を分割し、さらに「独特なスタイルの熊」から「独特なスタイル」と「熊」に分割している。

Plat

ここらへんでぱっと思い浮かぶ使い道 (可能かはわからない)

arknights や genshin impact などの、世界観、雰囲気が統一された画像複数枚から、服装の特徴などを分離して適用する...? (でもただの画風のようなものと考えると今までの学習で十分に思える...)
特定のキャラクターぼ装飾を他のキャラクターに装着する(というか着せ替え。顔や髪の身体属性と服属性の分離みたいな)
より柔軟なスタイルの混合 (背景は実写だけどキャラクターはイラスト、みたいな..？)

文字だけ見てるとなんだかマージ沼の底への近道なのか新たなる沼のようなものに見えるかも...

このスクラップは2023/12/13にクローズされました