😺
Multi-Modal Embeddingsについて調べる
Multi-Modal Embeddingsとは?
テキストだけではなく、画像やオーディオ、動画などのコンテンツをベクトルに変換
何が凄いのか?
テキスト・画像・オーディオなどフォーマットの違うデータをベクトルデータで表せる。
例えば、画像とテキストを共有ベクトル空間に配置することで、
インプットがテキストだとしても、結果として画像を引っ張ってこれる。
例:
例えば従来だとできない意味的な検索ができる。
Mapで、キーワード的な検索ではなく、意味的な検索をすることができるようになる。
「陽の光が綺麗に入る新宿のカフェ」で検索すると、その意味と近しい画像が格納されていれば引っ張ってきて検索結果に表示することができる。
他にも、商品検索の際の結果の表示にも使えそう。
既に取り入れられている?
YouTube ビデオでの視聴内容の推奨
Spotify のアイテム推奨システム
YouTube ビデオでの視聴内容の推奨
Pinterest のビジュアル検索
Shopifyの検索機能
Googleとメルカリの研究
Googleの研究者が
メルカリから 580 万枚の商品画像を使って、Vertex AI Vector Search上のエンベディングを使用しセマンティックに検索結果を表示
デモ
What is Multimodal Search: "LLMs with vision" change businesses
参考:
What is Vector Search? 2024 Guide for Developers
Multi-modal Image Search with Embeddings & Vector DBs
Discussion