Open2

ColPali: PaliGemma-3BとColBERTストラテジーに基づくビジュアルレトリバー

kun432kun432

これで知った
https://twitter.com/jerryjliu0/status/1815904500491972663

HuggingFaceで公開されている
https://huggingface.co/vidore/colpali

ColPaliは、視覚言語モデル(VLM)に基づく新しいモデルアーキテクチャと学習戦略に基づいて、視覚的特徴から効率的に文書をインデックス化するモデルである。PaliGemma-3Bの拡張で、テキストと画像のColBERTスタイルのマルチベクトル表現を生成する。論文 ColPali で紹介された: Efficient Document Retrieval with Vision Language Models で紹介され、このリポジトリで初めて公開された。

論文
https://arxiv.org/abs/2407.01449

GitHubレポジトリ
https://github.com/illuin-tech/colpali

マルチモーダルモデルを使ったRAGはLlamaIndexのドキュメントにも色々あるけど、retrievalでColBERTを使うってのがポイントなのではなかろうか。

ちょっとRagatouille触ったところでColBERTに興味が出てきたのと、あとPaliGemma全く触ってないのもあって、少し触ってみたいところ。

kun432kun432

どうやら近々LlamaIndexのWebinarがある様子。LlamaIndex側にはドキュメントもnotebookもまだ存在しないみたい。