😺

Multi-Modal Embeddingsについて調べる

2024/02/03に公開

テキストだけではなく、画像やオーディオ、動画などのコンテンツをベクトルに変換

何が凄いのか？

テキスト・画像・オーディオなどフォーマットの違うデータをベクトルデータで表せる。
例えば、画像とテキストを共有ベクトル空間に配置することで、
インプットがテキストだとしても、結果として画像を引っ張ってこれる。

例：
例えば従来だとできない意味的な検索ができる。
Mapで、キーワード的な検索ではなく、意味的な検索をすることができるようになる。
「陽の光が綺麗に入る新宿のカフェ」で検索すると、その意味と近しい画像が格納されていれば引っ張ってきて検索結果に表示することができる。

他にも、商品検索の際の結果の表示にも使えそう。

Pinterest のビジュアル検索
https://arxiv.org/abs/1505.07647

Googleの研究者が
メルカリから 580 万枚の商品画像を使って、Vertex AI Vector Search上のエンベディングを使用しセマンティックに検索結果を表示

デモ

ログインするとコメントできます