metric learning のファッション分野における活躍

14 min読了の目安(約12700字TECH技術記事

この記事の目的は?

ファッションの3つの研究分野において、 metric learning がどう使われているかを説明し、関連文献をいくつか紹介します。 metric learning やファッションの研究に興味を持たれた方が、研究を始めやすくなればと考えています。

street-to-shop image retrieval

どんな研究か?

ファッションアイテムの自撮り画像から、ECサイトで使われるような商品画像を検索 するための研究です。ファッションに限らない、一般的な呼び方だと cross-domain image retrieval と呼んだりもします。


図:自撮り画像の例


図:商品画像の例

出典: (M. Hadi Kiapour et al., 2015, ICCV) Where to Buy It: Matching Street Clothing Photos in Online Shops

metric learing はどう使われてるか?

同じアイテムの自撮り画像と商品画像の特徴量を近づける のに使われます。

どのように検索するかというと、クエリの画像特徴量の近傍を検索結果として返します。ECサイトなどでは商品数が多いため、近似近傍探索が使われたりします。

アパレルECサイトの ZOZOTOWN や、ファッションSNSの WEAR の画像検索機能の裏では、まさに metric learning で学習したモデルが動いています。ZOZOTOWN の検索システムについては以下の記事で解説しています。

関連文献

ドメイン適応 の研究も関連してるようです。

attribute manipulation

どんな研究か?

アイテムの画像特徴量をテキストによって操作する研究です。大雑把に言うと、 Word2Vec の、意味による演算を画像と単語でやる のが目的です。

応用先として、 画像検索のテキストによる補正 などに使えます。例えば、長袖のボーダーTシャツを検索したいのに、半袖のボーダーTシャツの画像しか持っていなくても、その画像と「長袖」というテキストを与えるだけで検索できるようにすることです。

metric learing はどう使われてるか?

同じアイテムの画像と属性テキストの特徴量を近づける のに使われます。属性テキストとは、アイテムの 袖の長さや模様 などを表した文や単語のことです(※1)。

どのように画像検索の補正を行うかというと、クエリ画像(e.g., 半袖のボーダーTシャツの画像)の特徴量に、属性テキスト(e.g, 「長袖」というキーワード)の特徴量を加算したりして補正します。あとは画像検索同様に、近傍を検索結果として返すだけです。

関連文献

マルチモーダル学習の visual semantic embeddings という分野も関連しているようです。

compatibility learning

どんな研究か?

アイテムの相性 を学習させる研究です。例えば、デニムジャケットにはボーダーのTシャツが合う、というようなことを学習させます。 コーデの採点アイテムからアイテムの推薦 に使うことができます。

metric learing はどう使われてるか?

同じコーデで使われているアイテムの特徴量どうしを近づける のに使われます。または、同時購入されたアイテムどうしを近づける場合もあります。特徴量としては画像が使われることが多く、特に visual compatibility と呼ばれたりしています。

どうやってコーデの採点を行うかというと、コーデ内のアイテムの組合せすべてについて、特徴量の類似度または距離を計算し、特徴量が近いほど高い値をとる採点スコアに変換します。

また、どうやってアイテムからアイテムの推薦を行うかというと、画像検索と同様にクエリとなるアイテム特徴量の近傍を推薦結果として返します。

ちなみに、アイテム×アイテムだけでなく、 アイテム×スタイル の場合もあります。スタイルとは、カジュアル、きれいめ、コンサバ、ガーリーなど、コーデの雰囲気のことです。以下の論文では Bi-LSTM によって コーデ内のアイテム特徴量を reduce して得られる文脈ベクトルをスタイル とみなし、 metric learning をしています(※5)。

(X. Han et al., 2017, MM) Learning Fashion Compatibility with Bidirectional LSTMs

関連文献

コンテンツベースの推薦分野 も関連しているようです。

まとめ

metric learning が活用されているファッションの研究分野を3つ紹介しました。関連文献の要約に書きましたが、 metric learning だけでなく 推薦、自然言語処理、マルチモーダル学習などとも関連しています。

紹介した3つの分野で metric learning がどう使われてるかを下の表にまとめました。

研究 応用先 学習データ 正例・負例の基準
street-to-shop image retrieval 画像検索 自撮り画像 × 商品画像 同じアイテムの画像かどうか
attribute manipulation 画像検索のテキストによる補正 アイテム画像 × 属性テキスト 同じアイテムの画像と属性かどうか
compatibility learning コーデ採点、アイテムからアイテムの推薦 アイテム画像 × (アイテム画像 or スタイル) 同じコーデで使われているアイテムかどうか

次回は?

metric learning Advent Calendar 2020 はこの記事で終わりですが、 ZOZOテクノロジーズ #3 Advent Calendar 2020 はまだまだ続きます!次回は @ikenayl さんの「代理:ライブ配信を支える技術」です!


(※1) 一般的な用語ではありません。説明を簡単にするため、こう表現しました。

(※2) early fusion とは、特徴量どうしを結合してからネットワークに通して計量を計算する方法です。一方、特徴量をネットワークに通して得られた特徴量の計量を計算する方法を late fusion と言います。どちらもマルチモーダル学習の分野で一般的な用語です。 metric learning の分野では late fusion を用いる例が多い気がします。

(※3) classification loss も metric learning です。同アドベントカレンダーの3日目の記事が参考になると思います。

(※4) 同アドベントカレンダーの14日目の記事で lifted structed loss について説明してます。

(※5) 同アドベントカレンダーの9日目の記事で Word2Vec や RNN による言語モデルも metric learning であることを説明しています。

(※6) 同アドベントカレンダーの7日目の記事で BPR を metric leanrning の観点からとらえています。

(※7) 対応する画像とテキストを近くに埋め込むマルチモーダル学習の一分野です。これも metric learning をしています。同じアドベントカレンダーの11日目の記事で説明しています。また、この記事の attribute manipulation の学習とも近いです。

(※8) マルチモーダル学習における early/late fusion とは若干、異なります。この論文おける early fusion は「あるアイテム特徴量と、残りのアイテムベクトルを reduce したスタイルベクトルの metric learning」を表し、 late fusion は「アイテムのペアごとに計量を計算し、損失関数で統合すること」を表します。