😎

VideoRAG: Retrieval-Augmented Generation over Video Corpus

2025/01/14に公開

以下論文のまとめとなる。
https://arxiv.org/pdf/2501.05874

背景と課題

  • Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)が抱える「幻覚」(事実誤り)を抑えるためのアプローチ。
    • クエリに関連する外部知識を検索し、それを基に回答を生成。
  • 既存RAGの課題
    • 主にテキストを対象としており、画像や動画といったリッチなマルチモーダル情報の活用は進んでいない。
    • 動画はテキストや静止画像よりも豊富な情報(時系列・視覚・音声)を含むが、以下の制約があった:
      • (1) クエリに関連する動画が既知である前提。
      • (2) 動画をテキスト(字幕やキャプション)に変換し、それを利用する方法。
    • これらでは、動画特有のマルチモーダル性やクエリ依存の動的検索が不十分。

提案手法:VideoRAG

VideoRAG は、動画コーパスを検索対象とし、その視覚的・テキスト的情報を統合的に活用するRAGフレームワーク。

動画検索と応答生成の流れ

  1. 動画検索(Video Retrieval)

    • クエリに基づき、大規模動画コーパスから関連動画を動的に検索。
    • 動画の 視覚情報(フレーム画像)と テキスト情報(字幕や自動音声認識による文字起こし)を組み合わせて検索。
  2. 動画を用いた応答生成(Video-Augmented Generation)

    • 検索した動画のフレームと字幕を、大規模ビデオ言語モデル(LVLM)に入力し、回答を生成。
    • 視覚情報とテキスト情報を統合することで、リッチなマルチモーダル性を活用。
  3. 字幕の補完

    • 動画に字幕がない場合、自動音声認識(ASR)で音声を文字起こしし、テキスト情報を補完。

大規模ビデオ言語モデル(LVLM)の活用

  • LVLM とは:
    • 動画の視覚情報(フレーム画像)とテキスト情報(字幕)を統合的に処理するモデル。
  • 本研究での役割
    • 検索段階
      • 動画の埋め込み表現(視覚+テキスト)を生成し、クエリとの類似度を計算。
    • 生成段階
      • 検索された動画のマルチモーダル情報を基に、クエリに応じた回答を生成。

実験と結果

使用データセット

  • WikiHowQA
    • 質問と回答のペア(例:「ネクタイの結び方」「車のダッシュボードでクッキーを焼く方法」)。
  • HowTo100M
    • YouTube動画1億クリップを収録したデータセット。
    • 手順や作業に関する豊富な動画を含む。

ベースライン手法

  1. NAÏVE
    • クエリのみを入力し、外部知識を用いずに回答生成。
  2. TEXTRAG (BM25/DPR)
    • テキスト(Wikipedia)を検索し、それを基に回答生成。
  3. TEXTVIDEORAG
    • 動画をテキスト(字幕やキャプション)に変換し、それを利用。

結果概要

  • VideoRAGの優位性
    • すべてのベースラインを上回り、高品質で具体的な回答を生成。
    • 視覚情報とテキスト情報を統合することで、リッチな情報を活用可能。
  • 検索性能の重要性
    • ランダムな動画ではなく、クエリに関連する動画を検索することで回答精度が大幅に向上。

定量評価

手法 ROUGE-L BLEU-4 BERTScore G-Eval
NAÏVE 0.141 0.014 0.834 1.579
TEXTRAG (BM25) 0.172 0.032 0.847 1.633
TEXTVIDEORAG 0.228 0.044 0.870 1.979
VideoRAG-VT (提案手法) 0.252 0.054 0.880 2.104

事例分析

ケース1:「車のダッシュボードでクッキーを焼く方法」

  • NAÏVE
    • 回答:「それは安全でなく、実現不可能です。」→不正確。
  • VideoRAG
    • 回答:「95°F以上の日に、ダッシュボードにクッキー生地を置き、車を閉め切って焼きます。」→詳細で具体的な手順。

ケース2:「粘土でバラを作る方法」

  • TEXTRAG
    • 無関係な人名 "Rose" を含む文書を検索→的外れな回答。
  • VideoRAG
    • 関連動画を検索し、バラの花びらを切り出し、組み立てる手順を生成。

考察

  1. 動画の利点
    • テキストや画像では得られない、リッチなマルチモーダル情報を活用可能。
  2. 検索性能の重要性
    • クエリに関連する動画を適切に検索することが応答の精度を大きく左右。
  3. 視覚とテキストの統合
    • 視覚的特徴(フレーム画像)とテキスト的特徴(字幕)を組み合わせることで、補完的に性能を向上。

結論

  • 本研究では、動画コーパスを外部知識として活用する VideoRAG を提案。
  • 視覚・テキスト情報を統合することで、従来のRAG手法を大きく超える性能を実現。
  • 本手法は、クエリへのより正確で具体的な回答生成に寄与し、マルチモーダルRAGの新たな可能性を示した。

Discussion