👗

metric learning のファッション分野における活躍

2020/12/22に公開

この記事の目的は？

ファッションの3つの研究分野において、 metric learning がどう使われているかを説明し、関連文献をいくつか紹介します。 metric learning やファッションの研究に興味を持たれた方が、研究を始めやすくなればと考えています。

street-to-shop image retrieval

どんな研究か？

ファッションアイテムの自撮り画像から、ECサイトで使われるような商品画像を検索 するための研究です。ファッションに限らない、一般的な呼び方だと cross-domain image retrieval と呼んだりもします。

図：自撮り画像の例

図：商品画像の例

出典: (M. Hadi Kiapour et al., 2015, ICCV) Where to Buy It: Matching Street Clothing Photos in Online Shops

metric learing はどう使われてるか？

同じアイテムの自撮り画像と商品画像の特徴量を近づける のに使われます。

どのように検索するかというと、クエリの画像特徴量の近傍を検索結果として返します。ECサイトなどでは商品数が多いため、近似近傍探索が使われたりします。

アパレルECサイトの ZOZOTOWN や、ファッションSNSの WEAR の画像検索機能の裏では、まさに metric learning で学習したモデルが動いています。ZOZOTOWN の検索システムについては以下の記事で解説しています。

ZOZOTOWN、AIを活用し、閲覧商品と似ている商品を検索できる「類似アイテム検索機能」を本日より導入 - 株式会社ZOZO
あなたの"欲しい"にたどりつく！WEARの超便利機能に注目🕵｜WEAR｜note
deep metric learningによるcross-domain画像検索 - ZOZO Technologies TECH BLOG：学習アルゴリズムの話
Google Cloud TPUを使った計量学習の高速化事例の紹介 - ZOZO Technologies TECH BLOG：TPUで学習を速くした話
類似アイテム検索機能についてGoogle Cloud Next '19 in Tokyoで技術発表をしました - ZOZO Technologies TECH BLOG：アーキテクチャの話（マイクロサービス, gRPC, GKE, terraform, 監視）
メルカリ・ヤフー・ZOZO開発者が語る「画像検索」の最前線！　 Bonfire Data & Science #1 イベントレポート - Yahoo! JAPAN Tech Blog：レスポンスのキャッシュによる高速化の話
近似最近傍探索Indexを作るワークフロー - ZOZO Technologies TECH BLOG：Cloud Composer (Airflow) による機械学習ワークフローの話

attribute manipulation

どんな研究か？

アイテムの画像特徴量をテキストによって操作する研究です。大雑把に言うと、 Word2Vec の、意味による演算を画像と単語でやる のが目的です。

応用先として、 画像検索のテキストによる補正 などに使えます。例えば、長袖のボーダーTシャツを検索したいのに、半袖のボーダーTシャツの画像しか持っていなくても、その画像と「長袖」というテキストを与えるだけで検索できるようにすることです。

metric learing はどう使われてるか？

同じアイテムの画像と属性テキストの特徴量を近づける のに使われます。属性テキストとは、アイテムの 袖の長さや模様 などを表した文や単語のことです(※1)。

どのように画像検索の補正を行うかというと、クエリ画像（e.g., 半袖のボーダーTシャツの画像）の特徴量に、属性テキスト（e.g, 「長袖」というキーワード）の特徴量を加算したりして補正します。あとは画像検索同様に、近傍を検索結果として返すだけです。

compatibility learning

どんな研究か？

アイテムの相性 を学習させる研究です。例えば、デニムジャケットにはボーダーのTシャツが合う、というようなことを学習させます。 コーデの採点 や アイテムからアイテムの推薦 に使うことができます。

metric learing はどう使われてるか？

同じコーデで使われているアイテムの特徴量どうしを近づける のに使われます。または、同時購入されたアイテムどうしを近づける場合もあります。特徴量としては画像が使われることが多く、特に visual compatibility と呼ばれたりしています。

どうやってコーデの採点を行うかというと、コーデ内のアイテムの組合せすべてについて、特徴量の類似度または距離を計算し、特徴量が近いほど高い値をとる採点スコアに変換します。

また、どうやってアイテムからアイテムの推薦を行うかというと、画像検索と同様にクエリとなるアイテム特徴量の近傍を推薦結果として返します。

ちなみに、アイテム×アイテムだけでなく、 アイテム×スタイル の場合もあります。スタイルとは、カジュアル、きれいめ、コンサバ、ガーリーなど、コーデの雰囲気のことです。以下の論文では Bi-LSTM によって コーデ内のアイテム特徴量を reduce して得られる文脈ベクトルをスタイル とみなし、 metric learning をしています(※5)。

(X. Han et al., 2017, MM) Learning Fashion Compatibility with Bidirectional LSTMs

まとめ

metric learning が活用されているファッションの研究分野を3つ紹介しました。関連文献の要約に書きましたが、 metric learning だけでなく 推薦、自然言語処理、マルチモーダル学習などとも関連しています。

紹介した3つの分野で metric learning がどう使われてるかを下の表にまとめました。

次回は？

metric learning Advent Calendar 2020 はこの記事で終わりですが、 ZOZOテクノロジーズ #3 Advent Calendar 2020 はまだまだ続きます！次回は @ikenayl さんの「代理：ライブ配信を支える技術」です！

(※1) 一般的な用語ではありません。説明を簡単にするため、こう表現しました。

(※2) early fusion とは、特徴量どうしを結合してからネットワークに通して計量を計算する方法です。一方、特徴量をネットワークに通して得られた特徴量の計量を計算する方法を late fusion と言います。どちらもマルチモーダル学習の分野で一般的な用語です。 metric learning の分野では late fusion を用いる例が多い気がします。

(※3) classification loss も metric learning です。同アドベントカレンダーの3日目の記事が参考になると思います。

(※4) 同アドベントカレンダーの14日目の記事で lifted structed loss について説明してます。

(※5) 同アドベントカレンダーの9日目の記事で Word2Vec や RNN による言語モデルも metric learning であることを説明しています。

(※6) 同アドベントカレンダーの7日目の記事で BPR を metric leanrning の観点からとらえています。

(※7) 対応する画像とテキストを近くに埋め込むマルチモーダル学習の一分野です。これも metric learning をしています。同じアドベントカレンダーの11日目の記事で説明しています。また、この記事の attribute manipulation の学習とも近いです。

(※8) マルチモーダル学習における early/late fusion とは若干、異なります。この論文おける early fusion は「あるアイテム特徴量と、残りのアイテムベクトルを reduce したスタイルベクトルの metric learning」を表し、 late fusion は「アイテムのペアごとに計量を計算し、損失関数で統合すること」を表します。

Discussion

hrsma2i

ファッションセンスが壊滅的だったので、自分の好きなプログラミングや数学でオシャレになろうと試みてる人です。服屋に入ると冷や汗が出るほど、ファッションが苦手でした。今は機械学習をやっていますが、将来はデータアナリストに専念しようと考えてます。天下一品のこってりが好きです。

バッジを贈るとは

この記事の目的は？
street-to-shop image retrieval
attribute manipulation
compatibility learning
まとめ
次回は？