👻

LLM画像対応への革新的な技術:ReflectiVAの詳細解説

に公開

はじめに:マルチモーダルLLMの課題

マルチモーダル大規模言語モデル(MLLM)は、テキストだけでなく画像も理解・処理できる拡張型AIモデルです。近年急速に発展しているこの技術ですが、一つの大きな制約がありました:学習していない知識には対応できないという限界です。

人間は知らないことを質問されたとき、検索エンジンや参考書などの「外部知識」を活用して回答します。しかし、従来のMLLMはトレーニング時に学んだ知識のみに依存するため、特に専門的・マイナーな情報を要する質問には正確に答えられないという課題がありました。

ReflectiVA:CVPRで注目された革新的アプローチ

CVPR 2025(コンピュータービジョンとパターン認識に関する最も権威ある国際会議)で採択された「ReflectiVA」は、この課題に対する画期的な解決策を提案しています。この研究の注目すべき点は:

  1. 従来の限界を打破:MLLMが外部知識を効果的に活用できる新たな枠組みを提供
  2. 自己反映能力の実現:AIモデル自身が「外部知識が必要かどうか」と「検索情報の関連性」を判断できる機能
  3. 実用的な性能向上:外部知識を必要とする視覚的質問応答タスクで顕著な精度向上を実現


ReflectiVAは、イラストのように外部知識を適切に活用して画像質問応答を行えるようになりました。

なぜマルチモーダルでの外部知識活用が難しかったのか?

テキストのみを扱うLLMでは「検索拡張生成(RAG)」という手法で外部知識を活用できますが、MLLMではこれが特に難しい理由がいくつかあります:

  1. モダリティギャップ:テキストと画像の両方を含む複雑な情報をどう検索し処理するか
  2. 推論能力の制約:MLLMはLLMと比較して複雑な推論能力がまだ限定的
  3. タスク判別の難しさ:「この質問は画像だけで答えられるか、それとも外部知識が必要か」という判断が難しい
  4. 検索精度の問題:マルチモーダルな知識ソースから関連情報を高精度で検索する技術が未成熟

ReflectiVAの革新的な仕組み:自己反映トークン

ReflectiVAの最大の革新点は「自己反映トークン」と呼ばれる新しい機構です。これは従来のMLLMの語彙に4つの特殊トークンを追加するという、シンプルでありながら強力なアプローチです:

1. 外部知識の必要性を判断するトークン

  • <RET>:「Retrieval」の略。「この質問に答えるには外部知識が必要」という判断
  • <NORET>:「No Retrieval」の略。「この質問は画像だけで答えられる」という判断

2. 検索情報の関連性を評価するトークン

  • <REL>:「Relevant」の略。「この検索された情報は質問に関連している」という判断
  • <NOREL>:「Not Relevant」の略。「この検索された情報は質問に関連していない」という判断

これらのトークンを使うことで、モデルは以下のような自己反映的な判断ができるようになります:

  1. 質問を見て「外部知識が必要か?」を判断
  2. 必要と判断した場合、検索された各情報について「関連性があるか?」を判断
  3. 関連性があると判断した情報のみを使って回答を生成

ReflectiVAの処理の流れ

まず、外部知識が必要かどうかを判断します。(<RET> or <NORET>)

次に、取得した外部知識が、それぞれ質問に関係しているかどうかを判断します。(<REL> or <NOREL>)

最後に、関連する外部知識をもとに質問に答えます。

詳細な技術アプローチ:2段階2モデル訓練

ReflectiVAの訓練は、非常に洗練された二段階のプロセスで行われます:

第一段階:記事内反映モデルの訓練

この段階では、「同じ記事(ウィキペディアページなど)内の異なる段落」から、質問に関連する段落と関連しない段落を区別する能力を身につけます。

  1. データの準備
    • 画像(I)、質問(q)、記事内の段落(P)のセットを用意
    • 画像をキャプションモデル(LLaVA-v1.5、BLIP-2、InstructBLIP)で記述
    • GPT-4などのLLMを使って、どの段落が質問に答えるのに役立つか自動的に判断
  2. トレーニング方法
    • ポジティブな段落(関連あり)と同じ記事内のネガティブな段落(関連なし)のペアを使用
    • モデルが正しく <REL> と <NOREL> トークンを生成するよう訓練

第二段階:最終モデルの訓練

第一段階で訓練したモデルを使って、より広範なデータでReflectiVAを訓練します。

  1. データの拡張
    • 各サンプル(画像と質問)に対して3種類の段落を用意:
      • ポジティブ段落:関連性が最も高い段落
      • ハードネガティブ段落:同じ記事内の関連性がない段落
      • ソフトネガティブ段落:別の記事から取得した段落
    • 外部知識が不要なサンプル(LLaVA-Instructデータセット)も含む
  2. バランスの取れたトレーニング
    • 外部知識が不要なケース(<NORET>)
    • 関連段落を使用するケース(<RET> + <REL>)
    • 同じ記事内の非関連段落(<RET> + <NOREL>)
    • 別記事からの非関連段落(<RET> + <NOREL>)
    • これらをバランス良く訓練し、様々なケースに対応できるようにする

検索パイプラインの詳細

ReflectiVAの検索システムも非常に精緻に設計されています:

1. 粗粒度検索(コース・グレイン検索)

  • 画像や質問をもとに、関連する可能性のある文書を広く検索
  • CLIP ViT-L/14@336やEVA-CLIP-8Bなどの画像-テキスト埋め込みモデルを使用
  • 画像→テキスト検索と画像→画像検索の両方を活用

2. 関連性判断(ファイン・グレイン選択)

  • 検索された各段落について<REL>/<NOREL>トークンを生成
  • 関連性があると判断された段落のみを最終的な回答生成に使用

3. 再ランキング(オプション)

  • 検索された段落をさらに精度よく並べ替えるコンポーネントを追加可能
  • これにより性能がさらに向上(Encyclopedic-VQAで35.5%→40.6%)

実験結果の詳細分析

ReflectiVAの性能評価の手法、及び結果です:

主要データセットでの評価

以下の二つのデータセットで評価が行われました。どちらも、画像と質問があるデータセットです。与えられる画像と質問だけでは答えは分からず、関連するWikipediaのページから情報を取得しないと答えられない質問が含まれています。

  1. Encyclopedic-VQA
    • 221,000ペアの質問-回答
    • 16,700の細かい粒度のエンティティ(ウィキペディアページ)
    • 単一ホップ質問(1つのページで答えられる)と二重ホップ質問(複数ページが必要)がある
    • ReflectiVAの精度:35.5%(再ランキング使用時:40.6%)
  2. InfoSeek
    • 130万の画像-質問ペア
    • 約11,000のウィキペディアページに関連
    • 未見のエンティティに関する質問も含む
    • ReflectiVAの精度:40.1%

比較モデルとの差

  1. ゼロショットLLMとMLLM
    • Vicuna-7B、LLaMA-3、LLaMA-3.1、GPT-4、BLIP-2、InstructBLIP、LLaVA-v1.5、GPT-4Vなど
    • これらは外部知識なしで回答するため、精度が低い(特にInfoSeekではLLMの精度はほぼゼロ)
  2. 検索拡張モデル
    • DPRV+T、RORA-VLM、Wiki-LLaVA、EchoSightなど
    • ReflectiVAはこれらすべてを上回る性能を示した

オラクル設定での評価

「質問に関連するウィキペディアページ」が提供される理想的な状況でも、ReflectiVAは最高性能を発揮:

  • Encyclopedic-VQA:75.2%(Wiki-LLaVAは46.8%)
  • InfoSeek:57.6%(Wiki-LLaVAは50.9%)

これは、ReflectiVAが「どの情報が質問に関連するか」を効果的に判断できることを示しています。

アブレーション研究(機能の有効性検証)

  1. 反射的トークンの有効性
    • 関連性トークン(<REL>/<NOREL>)を省略:精度が大幅低下
      • Encyclopedic-VQA:35.5%→23.6%
      • InfoSeek:40.1%→31.4%
    • 検索を完全に省略:最も低いスコア(検索の必要性を証明)
  2. 訓練戦略の有効性
    • 二段階訓練は単一モデル訓練より効果的
    • 第一段階だけのモデルでは高い精度が得られない
  3. 検索文書数の影響
    • Encyclopedic-VQA:10文書が最適
    • InfoSeek:1文書が最適
    • 総合的には5文書が良いバランス

標準ベンチマークでの性能維持

ReflectiVAは外部知識が必要ないタスクでも性能を維持しています。これは、外部知識機能を追加しても基本的な視覚理解能力が損なわれないことを示しています。

ReflectiVAの実用的意義

この研究の意義は非常に広範囲に及びます:

  1. より賢いAIアシスタント:幅広い知識を要する質問に正確に回答できるAIの実現
  2. 誤情報の削減:知識不足による誤った回答(ハルシネーション)の大幅な削減
  3. マルチモーダル検索の進化:画像と言語を組み合わせた検索技術の新たな地平
  4. アーキテクチャの革新:シンプルながら効果的な「自己反映トークン」という新概念
  5. 知識の透明性:AIが「どこから情報を得たか」を明示できるシステムへの一歩

結論

ReflectiVAは、マルチモーダルAIの大きな課題の一つ「外部知識の効果的活用」に対する画期的な解決策を提供しています。自己反映トークンという独創的なアプローチにより、モデルは「いつ外部知識が必要か」と「どの情報が関連するか」を自律的に判断できるようになりました。

このアプローチの強みは、その柔軟性と拡張性にあります。既存のMLLMに比較的少ない変更で統合でき、様々な知識ドメインやタスクに適用可能です。ReflectiVAは、より正確で信頼性の高いマルチモーダルAIシステムへの重要な一歩であり、今後のAI研究に大きな影響を与えるでしょう。

参考文献

https://aimagelab.github.io/ReflectiVA/
https://arxiv.org/abs/2411.16863

UPGRADE tech blog

Discussion