RAGで動画検索。「VideoRAG」の解説
本記事では、RAGの性能を高めるための「VideoRAG」という手法について、ざっくり理解します。株式会社ナレッジセンスは、エンタープライズ企業向けにRAGを提供しているスタートアップです。
この記事は何
この記事は、RAGで動画も検索できるようにする手法「VideoRAG」の論文[1]について、日本語で簡単にまとめたものです。
今回も「そもそもRAGとは?」については、知っている前提で進みます。確認する場合はこちらの記事もご参考下さい。
本題
ざっくりサマリー
VideoRAGは、RAGの新しい手法です。VideoRAGを使うことで、動画も、RAGのソースとして活用できるようになります。KAISTとDeepAuto.aiの研究者らによって2025年1月に提案されました。
最近、「マルチモーダルRAG」が注目されています。(※こちらの記事でも2025年のトレンド予想として紹介しました)
通常のRAGは、テキストしか入力ソースにできません。そこで、いわゆる「マルチモーダルRAG」が登場し、ファイルの中に含まれる画像や図表についても情報源として活用し、回答を生成できるようになってきました。
VideoRAGは、大量の動画の中から、ユーザーの質問に関連する動画を引用して回答生成することができるようにするというRAGの手法です。手法自体は、かなりシンプルです。基本的には普通のRAGと同じ構成で、一点、動画を解釈可能な言語モデル「Large Video Language Models (LVLMs)」を活用している点が、ユニークな点です。[2]
問題意識
従来のRAGでは、テキストデータに基づいた回答しかできません。例えばPDFを回答のソースにしたい場合、PDFの中に含まれるテキストのみを参考にして、回答が生成されます。最近だと、画像や図表を解釈できる手法も出てきていますが、動画をソースにする手法は、あまり知られていません。
オンライン打ち合わせや決算説明など、普段の仕事でも動画は活用されるので、「動画をソースにRAGしたい」というニーズは結構あります。
手法
VideoRAGの全体像は、かなり普通のRAGに近いです。VideoRAGという手法を一言で言うなら、「埋め込みモデルとしてLVLMを利用する手法」という感じです。以前紹介した「DSE」という手法と、同じことを動画でやっているイメージです。
【事前にやっておくこと】
- チャンク化:各動画を一定の長さ(ここでは4秒ごと)にチャンク分割
- 字幕生成:各動画から音声を抽出し、Whisperで文字起こし
- ベクトル化:動画チャンクと字幕について、「InternVideo」というLVLMを使って埋め込みベクトル化
【ユーザーが質問を入力して来たとき】
-
質問をベクトル化
- ユーザーのクエリをLVLMでベクトル化
-
関連する動画を検索
- 質問のベクトルと動画チャンクのベクトルについて、コサイン類似度を計算
- ユーザーの質問に関連性の高い、上位k個の動画を取得
-
回答生成
- 2で検索した動画の一部(32秒)を活用
- 動画の一部、字幕データ、ユーザーの質問をLLaVA-Video-7BというLVLMに渡し、最終回答を生成
VideoRAGという手法のキモは、動画をベクトル化している点です。こうすることで、シンプルなRAGの構成で、動画が検索可能になります。
成果
- 全てのデータセットにおいて、従来のRAG手法よりも優れた性能を発揮
- 動画を活用することで、特に手順が重要な質問に対して、より正確で具体的な回答を生成可能に。例えば、「車のダッシュボードでクッキーを焼く方法」といった普通は回答できない質問に対して、VideoRAGは具体的な手順を提示可能だった
※ちなみに VideoRAG-T
は字幕だけ使うパターン、 VideoRAG-V
は動画だけ使うパターン。 VT
は両方使う。Vの方が精度が高いことが多いのは、字幕の精度が低いことが原因の可能性。
まとめ
弊社では普段、大企業向けにRAGシステムを提供しています。大企業でもかなり、動画データの活用が進んでいます。例えばオンライン商談の録画や、動画マニュアルなどは利用が進んでいる印象です。
VideoRAGという手法を利用することで、商談動画をAIで分析をしたり、動画マニュアルについて問い合わせたりすることが、もっと簡単になります。
問題点としては、今のところ、「LVLM」として利用できる言語モデルは、多くないことです。しかし今後、OpenAI社のGPTシリーズや、GoogleのGeminiシリーズで動画入力が可能になると、この「VideoRAG」という手法はかなり大事になってきそうです。
みなさまが業務でRAGシステムを構築する際も、選択肢として参考にしていただければ幸いです。今後も、RAGの回答精度を上げるような工夫や研究について、記事にしていこうと思います。我々が開発しているサービスはこちら。
-
"VideoRAG: Retrieval-Augmented Generation over Video Corpus", Jeong et al. ↩︎
-
LVLM(Large Video Language Models )とは、動画とテキストを解釈可能な言語モデルです。動画の流れや音声も解釈することができます。画像とテキストだけが扱える「VLM(Vision-Language Model)」とは、異なるものとして、この論文では扱われています。 ↩︎
Discussion