Virtual Try-On(VTON)周辺調査

IMAGDressing と IDM-VTON の違い
1. IMAGDressing
- 概要: IMAGDressingは、ARを活用した仮想試着アプリケーション。ユーザーが実際に服を着ているかのように見える体験を提供し、AI技術を駆使してユーザーの体型や姿勢に合わせたリアルな服のシミュレーションを行う。
-
主な特徴:
- 実際の写真や3Dモデルを基にリアルタイムに服を着せる。
- ARフィルターやカメラ機能を利用したインタラクティブな体験。
- 衣服の質感や動きを忠実に再現。
2. IDM-VTON (Image-based Deep Virtual Try-On Network)
- 概要: IDM-VTONは、ディープラーニング技術を使った仮想試着システムで、特に画像を基にした服の試着シミュレーションに特化。ユーザーがアップロードした人物画像に、別の画像の衣服を合成して試着効果を作り出す。
-
主な特徴:
- ディープラーニングに基づいた高精度な画像処理。
- ユーザーの姿勢や体型に関わらず、画像から服の合成が可能。
- 画像ベースのため、高品質な静止画の仮想試着に適している。
主な違い
- リアルタイム vs 画像処理: IMAGDressingはAR技術を使用してリアルタイムに服をシミュレートするが、IDM-VTONは静止画を使用して服を合成。
- 技術アプローチ: IMAGDressingはARと3Dモデリング、IDM-VTONはディープラーニングを使って仮想試着を行うため、目的や使用シーンが異なる。
- 利用シーン: IMAGDressingはインタラクティブでリアルタイムな体験に適しているのに対し、IDM-VTONは高品質な画像合成を重視。

LoRAトレーニング不要。
LoRA
LoRAとは: Low-Rank Adaptation の略称です。LoRAもAdapterの一種です。
モデル全体もしくは一部を微調整するファインチューニングに対して、LoRAは学習済み部分の重みは変更せずに、追加レイヤー分を学習させAdapterとして利用する為、かなり少ないパラメータ数でファインチューニングとあまり変わらない精度を出せるのでは?という考えがLoRA
https://note.com/konapieces/n/n20d052a8e558
ファインチューニングのそれとは比較にならないほど、少ないデータセットと時間で学習が可能になります。
少ないデータセット、学習時間が早いのが特徴→学習に対するコストが非常に低い

用語系: Adapter, IPAdapter, T2IAdapter, ControlNet-Pose

Difyで適当に要約してもらった結果(Gemini 1.5 Flash):
IMAGDressing-v1:カスタマイズ可能なバーチャル着せ替え
概要
この論文は、潜在拡散モデルを用いたバーチャル着せ替え(VD)の新しい枠組み「IMAGDressing-v1」を提案しています。既存のバーチャル試着(VTON)技術は、特定の衣服と人物の条件に基づいて画像を生成し、消費者向けの試着体験を向上させることに焦点を当てています。一方、VDは、衣服、顔、ポーズ、シーンを柔軟に制御できる、より包括的な着せ替え体験を商人向けに提供することを目指しています。
従来研究の改善点
この研究は、VTON技術の限界を克服し、VDタスクのニーズに対応しています。具体的には、VDタスクのために新しい総合的なアフィニティメトリックインデックス(CAMI)を設計し、生成された画像と参照衣服の一致度を評価しています。また、VDタスクに特化した潜在拡散モデルであるIMAGDressing-v1を提案しています。
核心技術
IMAGDressing-v1は、衣服のセマンティック特徴とテクスチャ特徴を同時に捉える衣服UNetと、衣服特徴とテキストプロンプトの制御をバランスさせるハイブリッドアテンションモジュールを備えたデノイジングUNetで構成されています。このハイブリッドアテンションモジュールは、凍結されたセルフアテンションモジュールと学習可能なクロサテンションモジュールで構成され、テキストによるシーン制御を可能にします。
効果検証
IMAGDressing-v1の有効性を検証するために、広範な実験が行われました。その結果、IMAGDressing-v1は、様々な制御条件下で最先端の人物画像合成性能を実現することが示されました。また、比較実験では、他の最先端のVDモデルと比較して、生成された画像の品質と衣服の一致度において優れた性能を示しました。
議論点
本論文では、VDタスクの評価指標としてCAMIを導入していますが、その詳細な設定は補足資料に記載されているため、今後の研究で詳細な分析が必要となります。また、IMAGDressing-v1は、ControlNetやIP-Adapterなどの他の拡張プラグインと組み合わせることで、生成画像の多様性と制御性を向上させることができますが、これらのプラグインの組み合わせによる影響については、さらなる調査が必要です。
次に読むべき論文
本論文の参考文献として、[43] "TryOnDiffusion: A Tale of Two UNets" (Zhu et al., 2023) がVDタスクに関連する興味深い研究であり、次に読むべき論文として推奨されます。

OutfitAnyone論文の概要: 日本語
論文の内容:
この論文は、OutfitAnyoneと呼ばれる、あらゆる服装と人物に対して高品質なバーチャル試着を実現する拡散モデルベースのフレームワークを紹介します。OutfitAnyoneは、既存のバーチャル試着技術が抱える、高忠実度で詳細な結果を生成する難しさ、服装の変形を自然に表現する難しさ、そしてポーズや体型などの条件を調整する難しさといった課題に対処します。
先行研究との違い:
OutfitAnyoneは、既存のバーチャル試着技術と比較して以下の点が優れています。
- 高品質な結果: 従来のGANベースのモデルと比べて、OutfitAnyoneは拡散モデルを活用することで、より高品質で写実的なバーチャル試着結果を生成できます。
- 汎用性: 体型やポーズ、服装の種類、背景など、様々な条件に対応できるため、より実用的なバーチャル試着を実現します。
- 柔軟な制御: ポーズや体型を制御するための様々な方法(openpose、SMPL、denseposeなど)に対応しています。
- 高解像度: 384x684から1080x1920まで、柔軟な解像度でバーチャル試着を生成できます。
コア技術:
OutfitAnyoneは、二つのストリームを持つ条件付き拡散モデルを採用しています。一つは人物の画像を処理し、もう一つは服装の画像を処理します。これらのストリームは融合ネットワークで統合され、服装の詳細が人物の画像に反映されます。
効果検証:
OutfitAnyoneは、様々な服装、人物、体型、背景に対してバーチャル試着を行い、その有効性を検証しました。
- あらゆる服装: シングルアイテムの試着だけでなく、上下の服装を同時に変更できることを示しています。
- あらゆる人物: 多様な肌の色、年齢、性別の人物に対してバーチャル試着が可能なことを示しています。
- あらゆる体型: ポーズと体型を制御する機能により、人物の元の体型を維持したままバーチャル試着ができることを示しています。
- あらゆる背景: 屋外や屋内の様々な背景、照明条件下でも、バーチャル試着が可能なことを示しています。
議論点:
論文では、OutfitAnyoneの限界や今後の研究方向について以下のように議論しています。
- データセットの限界: データセットのサイズや多様性をさらに拡大することで、より高品質な結果が得られる可能性があります。
- モデルの最適化: モデルの構造やパラメータを最適化することで、さらに性能を向上させることができます。
次に読むべき論文:
論文の参考文献から、次に読むべき論文として、[5] Yisol Choi, Sangkyung Kwak, Kyungmin Lee, Hyungwon Choi, and Jinwoo Shin. Improving diffusion models for virtual try-on. arXiv preprint arXiv:2403.05139 , 2024. を挙げることができます。この論文は、バーチャル試着のための拡散モデルの改良について扱っています。

Doji
you can create a personalized AI likeness, easily try on real products, and shop your favorite looks

Leffa
商用利用ライセンスのAPIとして提供されている(VTONで非商用ばかり)