Zenn
🌊

PDFやPPTXでRAG難しい?心配するな!俺が来た!-Jina M0

に公開
2

本稿では、Jina AIが2025年4月に公開したオープンソースモデル「Jina Reranker M0」について技術的観点から解説します。このモデルは、マルチモーダル検索における重要な技術的進展をもたらします。

現状の課題

現在の検索・検索順位付け技術において、特に知識ベース検索(RAG)システムでは解決すべき重要な課題があります。一般的なナレッジベースには、テキストドキュメントだけでなく、グラフ、図表、スクリーンショット、写真などのビジュアル要素を含む複合的なコンテンツが存在します。しかし、従来の検索ランキング(Reranker)システムはテキスト情報のみを処理するため、視覚的に関連性の高いコンテンツであっても適切に評価されないという制約がありました。

Jina Reranker M0の技術的アプローチ

Jina Reranker M0は、この課題に対する技術的解決策として開発されました。本モデルは、テキストと画像の統合リランキングに対応した多言語モデルとして、検索技術におけるマルチモーダル化を実現します。

主な技術的特徴:

  • テキストクエリを用いて画像・テキスト混在ドキュメントの検索および順位付け
  • 画像クエリを用いた関連コンテンツの検索および順位付け
  • 異なるモダリティ(テキストと画像)の結果を統一的に評価・順位付け

技術的仕様と性能評価

Jina Reranker M0の技術的優位性は、以下の詳細仕様に基づいています:

  • モデルアーキテクチャ:Qwen2-VL-2Bビジョン言語モデルをベースとした24億パラメータモデル。前世代V2と比較して約9倍のパラメータ数を実現し、表現力と理解力を大幅に向上。
  • コンテキスト長:10,240トークンのコンテキストウィンドウをサポートし、長文ドキュメントや複雑なウェブページの包括的な理解が可能。これは前世代V2の8,000トークンを上回る仕様。
  • 多言語対応:29言語以上(中国語、英語、ドイツ語、フランス語、日本語など)に対応し、クロスリンガル検索機能を実装。
  • 画像処理能力:最大4K解像度から最小56ピクセルまでの多様な画像サイズに対応し、異なる画質・解像度での処理を最適化。
  • ベンチマーク性能:
    • マルチモーダルベンチマークViDoReにおいてNDCG@5で91.02のスコアを達成
    • テキスト検索ベンチマークBEIRではNDCG@10で58.95を記録(bge-reranker-v2-m3の56.51を上回る)
    • 複数の評価指標において最先端または競争力のある結果を示す


上記の図は、jina-reranker-m0のViDoRe、MBEIR、Winogoundなどのビジュアル検索ベンチマークテストにおけるパフォーマンスを示しています。これは、さまざまな分野横断的、言語横断的なマルチモーダル検索タスクを処理する上での強力な能力を証明しています。図中の各データポイントは、特定のタイプのビジュアルドキュメントまたは特定のタスクに対するモデルのスコアを表しています。箱ひげ図(boxplot)はこれらのスコアの分布状況を直感的に示し、ハイライトされた数値は平均パフォーマンスを表しています。

このボックスプロットは、jina-reranker-m0の5つの純粋なテキスト再ランキング(Text-to-Text)ベンチマークテストにおけるパフォーマンスをまとめたものです。各ベンチマークテストは複数のデータセット、言語、またはタスクを網羅している可能性があり、図中の各点は具体的なテストインスタンスのスコアを表しています。ボックスプロットは全体のスコア分布範囲を描写し、ハイライトされた数字は平均パフォーマンスを示しています。ここで注意すべき点として、ほとんどのベンチマークテストではNDCG@10をパフォーマンス指標として使用していますが、MKQAではRecall@10を使用しています。これはMKQAのアノテーションデータがNDCGの計算をサポートしていないためです(公式評価ではrecallを使用し、いくつかのヒューリスティックなルールによってドキュメントの関連性を判断しています)。

実用的応用領域

Jina Reranker M0の技術は、以下のような具体的な実装シナリオにおいて特に有効です:

  • 先進的RAGシステム:図表やグラフを含む技術文書、研究論文、内部ドキュメントなどの複合コンテンツを効果的に検索・ランク付けすることで、情報検索の質を向上。
  • マルチモーダル検索エンジン:テキストクエリに対して視覚的に関連性の高いコンテンツを適切に評価し、より包括的な検索結果を提供。
  • Eコマースプラットフォーム:商品画像とテキスト説明の両方を考慮した高精度な商品検索・レコメンデーションを実現。
  • 多言語情報検索:言語の壁を越えた情報アクセスを可能にし、グローバルな知識共有を促進。
  • 技術ドキュメント管理:コードスニペットと図解・スクリーンショットを含む技術文書の最適な検索・整理を支援。
特性 jina-reranker-m0 jina-reranker-v2
アーキテクチャ ビジョン言語モデル (Vision Language Model) クロスエンコーダー (Cross-Encoder)
ベースモデル Qwen2-VL-2B Jina-XLM-RoBERTa
パラメータ数 24億 2.78億
最大コンテキスト長 (クエリ + ドキュメント) 10,240トークン 8,192トークン
最大画像パッチ数 (動的解像度、パッチあたり28x28) 768 ❌ (未対応)
多言語サポート
サポートするタスク テキスト→テキスト、テキスト→画像、画像→テキスト、テキスト→混合モダリティ テキスト→テキスト

結論

Jina Reranker M0は、マルチモーダル検索技術における重要な技術的進展を示しています。24億パラメータモデルの能力、包括的な言語対応、高度な画像処理能力により、従来の検索技術の限界を超え、より直感的で効果的な情報アクセスを実現します。オープンソースとして公開されていることから、幅広い技術分野での応用が期待されます。

2
Acrosstudioテックブログ

Discussion

ログインするとコメントできます