👚

【画像生成AI】仮想試着モデルの比較

yuki

2024/12/11に公開

画像生成 AI

生成 AI

idea

 はじめに株式会社松尾研究所でインターンをしているyukiです。本記事は、松尾研究所 Advent Calendar 2024の記事です。
もともと画像生成AIに興味がありStable DiffusionやMidjourneyなどをよく使っていました。これらのツールの背景にある技術について理解を深めたいと思っており、インターン中は画像生成関連の論文調査や再現実装を行いました。

その中で画像生成モデルの実応用例として「仮想試着」という技術について調査、比較を行いましたので、その内容を紹介します。

 仮想試着とは人物が衣服を着用した状態を画像で再現する技術のことで、人物の画像と衣服の画像をインプットすると衣服だけが変更された画像が出力されるというものです。この技術の利用によって購買率・顧客単価の向上、ネットショップにおける返品率の低下・コスト削減などが期待できるとされています。

 実験
 実験設定（条件・評価指標）今回は最新（2024年10月当時）の仮想試着モデルである

・OOTDiffusion

・IDM-VTON

・CatVTON

の三つについて比較を行いました。

各モデルはGitHubで公開されているのでそちらを使うこともできますし、Hugging Faceにあるデモをweb上で動かすこともできます(GitHubにデモのリンクがあります）。WebUI上では入力画像のサンプルが容易されており、自分で画像を用意しなくても動かすことができます。

WebUIの画面

これらのモデルについて簡単に比較すると以下のようになります。（詳細は脚注の論文を参照ください）

追加条件というのは画像以外に入力できる情報のことで、OOTDiffusionはUpper-bodyやDressといった衣服の種類を、IDM-VTONは"short sleeve round neck t-shirts"のような詳細なプロンプトを入力できます。

 手法比較表

手法
特徴
パラメータ数
モジュール構成
追加条件

OOTDiffusion
入力した衣服画像の詳細な特徴を保持しつつ、プロンプト制御可能な生成モデル
22億
UNet, VAE
衣服ラベル

IDM-VTON
パラメータ数が多く、OOTDiffusionより詳細なプロンプトで制御できる
62億
UNet, VAE, IP-Adapter
テキストプロンプト

CatVTON
余分なモジュールを排除し、シンプルなアーキテクチャによる効率的な生成モデル
9億
UNet, VAE
なし

各モデルはCatVTONの論文[3]で比較されており、評価指標も計算されています

表1 パラメータ数

表2 評価指標
しかし、これらの評価指標はあくまで機械的に計算されたものであり、画像に対する人間の評価とは異なる可能性もあります。そこで様々な入力に対して比較を行ってみます。

入力画像が正面からの人物やシンプルな服の写真ではどのモデルでも上手くいって比較しずらいと考え、模様や光沢がある服や体の一部が隠れているような画像を使用しました。また、CatVTONはプロンプト入力が出来ないので条件をそろえるために画像入力のみで生成を行いました。

 実験結果

実験1：WebUI上にあるサンプル画像を使用
 
実験2：フリー画像を規約に沿って使用（一部加工しています）

 結果の解釈と考察実験1

上段の例を見ると、OOTDiffusion、CatVTONでは服の質感（光沢・陰影）や模様が変わってしまっていることが分かります。

また、下段の例ではIDM-VTONにおいて他の服が追加されてしまっています。一方で服の模様はOOTDiffusionとIDM-VTONで上手く再現できています。
実験2

実験1では正面を向いた人物画像を使用しましたが実験2ではもう少し複雑な画像を入力画像としました。OOTDiffusion、CatVTONでは、長袖→半袖のように服の面積が小さくなる場合、肌の色が変わってしまっていることが分かります。また、OOTDiffusionとIDM-VTONでは服のしわが上手く再現できており、よりリアルな表現ができています。

 まとめ
 結果のまとめ・所感定性的ではありますが、IDM-VTONが一番実用性が高いように思います。他の服が一部追加されてしまったとしても服の質感（光沢・陰影）や模様、しわを再現してリアリティを持たせ、服以外の部分もうまく補完することが試着では重要だからです。もちろん各モデルは一長一短ですので何に重きを置くかで変わってくると思います。

一方で、表1にあるようにモデルとしての軽さはCatVTONに大きく分があり、計算資源に応じて使い分けることも有効です。

 今後の方向性今回は画像生成によって仮想試着を行いましたが、動画生成AIと組み合わせることでよりリアルな仮想試着が期待できます。一枚絵から動画を生成するDream MachineやRunwayのようなAIと組み合わせると面白そうです。

Runwayで試しにやってみると以下のようになりました。途中で髪型が変わってしまっていますが服の部分は違和感がなく、よりリアルな試着になっています。店舗に行かなくてもいい未来も近いのかもしれません。

 参考文献論文リンク

[1]OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on

https://arxiv.org/abs/2403.01779

[2]Improving Diffusion Models for Authentic Virtual Try-on in the Wild

https://arxiv.org/abs/2403.05139

[3]CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models https://arxiv.org/abs/2407.15886
参考にしたサイトのリンク

拡散モデルを用いた2Dバーチャル試着技術について

https://devblog.thebase.in/entry/2024/05/02/110000

手法	特徴	パラメータ数	モジュール構成	追加条件
OOTDiffusion	入力した衣服画像の詳細な特徴を保持しつつ、プロンプト制御可能な生成モデル	22億	UNet, VAE	衣服ラベル
IDM-VTON	パラメータ数が多く、OOTDiffusionより詳細なプロンプトで制御できる	62億	UNet, VAE, IP-Adapter	テキストプロンプト
CatVTON	余分なモジュールを排除し、シンプルなアーキテクチャによる効率的な生成モデル	9億	UNet, VAE	なし