😺

Multi-Modal Embeddingsについて調べる

2024/02/03に公開

Multi-Modal Embeddingsとは?

テキストだけではなく、画像やオーディオ、動画などのコンテンツをベクトルに変換

何が凄いのか?

テキスト・画像・オーディオなどフォーマットの違うデータをベクトルデータで表せる。
例えば、画像とテキストを共有ベクトル空間に配置することで、
インプットがテキストだとしても、結果として画像を引っ張ってこれる。

例:
例えば従来だとできない意味的な検索ができる。
Mapで、キーワード的な検索ではなく、意味的な検索をすることができるようになる。
「陽の光が綺麗に入る新宿のカフェ」で検索すると、その意味と近しい画像が格納されていれば引っ張ってきて検索結果に表示することができる。

他にも、商品検索の際の結果の表示にも使えそう。

既に取り入れられている?

YouTube ビデオでの視聴内容の推奨
Spotify のアイテム推奨システム
https://research.atspotify.com/2021/04/contextual-and-sequential-user-embeddings-for-music-recommendation/

YouTube ビデオでの視聴内容の推奨
https://research.google/pubs/deep-neural-networks-for-youtube-recommendations/

Pinterest のビジュアル検索
https://arxiv.org/abs/1505.07647

Shopifyの検索機能
https://www.shopify.com/blog/semantic-search

Googleとメルカリの研究

Googleの研究者が
メルカリから 580 万枚の商品画像を使って、Vertex AI Vector Search上のエンベディングを使用しセマンティックに検索結果を表示

デモ

What is Multimodal Search: "LLMs with vision" change businesses
https://cloud.google.com/blog/products/ai-machine-learning/multimodal-generative-ai-search?hl=en

参考:
What is Vector Search? 2024 Guide for Developers
https://www.pinecone.io/learn/vector-search-basics/

Multi-modal Image Search with Embeddings & Vector DBs
https://medium.com/@tenyks_blogger/multi-modal-image-search-with-embeddings-vector-dbs-cee61c70a88a

Discussion