📹

文献調査: Video-MME

2024/06/09に公開

はじめに

はじめまして、株式会社STAR AI社員の中岸と申します。この度、会社のほうでテックブログをやってみようということになりました。その第一弾として、今回は、直近に取得した特許に関連した文献の調査という形で投稿してみようと思います。


我々は、2024年4月に 「動画像からのシーン抽出・生成技術」 に関する特許取得をしました(URL)。この流れを受けて、最新のAI分野におけるビデオ解析がどのようになっているのかを調査している中で、評価部分に着目している文献「Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis」を見つけたので、興味深いなと思って読み込んでその内容をまとめてみたり所感を書いたりしてみました。以下、文中にて、(➡に続いている太字の文章は、読んでいる際に自分が感じたことやメモ書きであり、文献での記載ではないのでご注意下さい。

今回、紹介する文献(URL)は、下記に示すものとなります(プロジェクトページもあるようです)。また、この記事内の画像は、文献およびプロジェクトページから引用させていただいております。

Video-MME: The First-Ever Comprehensive Evaluation of Multi-modal LLMs in Video Analysis [Fu et al., 2024]

1. 要約 ~ 導入(論文の簡単な紹介)

人工汎用知能(artificial general intelligence)の研究において、マルチモーダル大規模言語モデル(MLLM)は最近の進展の焦点となっているが、連続的視覚データ(sequential visual data、すなわち動画、ビデオ)処理の能力はまだ十分に追及されていない状況である。また、そのパフォーマンスを包括的かつ高いクオリティで評価する枠組みがない。
この論文では、MLLMの動画解析における初のフルスペクトラム(full-spectrum)、マルチモーダルな評価のベンチマークであるVideo-MME(Multi-Modal Evaluation)が紹介されている(図1はその例)。


図 1: Video-MME の例(文献より引用)。正解は緑色で強調表示されている。動画の内容に関連した、多肢選択形式のQA。

このベンチマークには、既存のベンチマークとは異なる、以下の4つの主要な特徴がある。

  1. ビデオタイプの多様性(Diversity in video types)
    • 6つの主要な視覚領域と30のサブフィールドを網羅しており、幅広いシナリオの一般化を保証➡様々な種類のカテゴリの動画がある。
  2. 時間的次元における持続性(Duration in temporal dimension)
    • 11秒から1時間までの短期、中期、長期の長さの動画を網羅し、堅牢なコンテキストダイナミクスを実現➡動画時間も様々である。
  3. データモダリティの幅広さ(Breadth in data modalitie)
    • 動画フレームに加えて 字幕情報や音声情報(マルチモーダル) も利用し、MLLMの全体的な能力を明らかにする➡映像だけでなく、字幕や音声も入力としてマルチモーダルで評価する。
  4. アノテーションの品質(Quality in annotations)
    • 専門家による厳格な手動ラベリングを行い、正確で信頼性のあるモデル評価を行う。合計256時間の900本の動画が手動で選択され、その内容を繰り返し視聴することで注釈が付けられ、2700の質問応答ペアが準備されている➡専門家を動員して厳格なラベル付けが行われている。

上記について詳細が述べられた後に、Video-MMEを用いて、GPT-4シリーズやGemini 1.5 Proなどの様々な最先端のMLLMsの評価が行われ、以下の結果が示されている。

  • 実験では、Gemini 1.5 Proが最も性能の高い商用モデルであり、平均精度75.7%(Overallにおける数値)でオープンソースモデル LLaVA-NeXT-Video の52.5%を大幅に上回ることが明らかにされた。
  • Video-MMEは画像と動画の両方のMLLMに適用される普遍的なベンチマークであることも示されている。
  • 字幕と音声情報がビデオ理解を大幅に向上させることができると示されている(多様なデータを用いたことによる精度の向上)。
  • 全てのモデルで動画時間の長さが増すとMLLMの性能が低下することが示されており、より長いシーケンスの処理におけるさらなる改善の必要性が強調されている。

(➡要するに、Video-MMEは、既存のベンチマークでは、包括的なMLLMsの動画解析能力を十分に明らかにするために対応しきれていなかった部分(ビデオタイプの多様性の欠如、時間的ダイナミクスのカバー不足、 単一モダリティへの限定的な焦点など)について、かなり力を入れて対応した最新のベンチマーク。

2. Video-MME

2.1 データセット構築

Video-MMEのデータセットは、ビデオ収集(Video Collection)、質問応答のアノテーション(Question-Answer Annotation)、品質レビュー(Quality Review)の3つのステップから構成されている。

ビデオ収集: データはYouTubeから収集されており、各動画は、知識、映画・テレビ、スポーツ競技、芸術的パフォーマンス、生活記録、多言語の6つの主要ドメインに分類される。さらに各ドメインは詳細なタグに分けられ、合計30のビデオクラス(サブクラス)が作成されている。各クラスについて、短い(2分未満)、中程度(4〜15分)、長い(30〜60分)ビデオを収集し、対応するメタ情報(字幕や音声など)も取得します。最終的なデータセットは、様々なドメインにわたる900本のビデオで構成され、バランスの取れた長さのビデオが含まれている。(➡さまざまカテゴリや動画時間の動画がデータセットに存在しており、しっかりとした構成になっている

質問応答のアノテーション: 動画コンテンツを解釈するMLLMsの能力を評価するため、専門家の手で 高品質なQAペア(アノテーション) を作成する。このQAには多肢選択形式が採用されている(これには、評価を簡素化し柔軟にする意図がある)。各ビデオに対して4つの選択肢を持つ3つの質問を作成し、合計2700(900×3)のQAペアが作成されている。なお、これらの質問は、知覚、認識、推論、情報要約などの12のタスクタイプに分類され、各QAペアはビデオコンテンツに関連付けられて、ビデオを見ずに回答できないように作成されている(この確認は品質レビューで行われる)。


図 2: (左) ビデオカテゴリの6つの主要ドメイン、30のサブクラスとその分布。(右) ビデオの長さとタスクの分布。さまざまな長さの動画時間やタスクが存在していることが分かる(一方で、推論や情報要約などの難易度が高めのタスクは長時間の動画に多く含まれていることも分かる)。

品質レビュー: データセットの品質を保証するため、厳格な手動レビューが行われている。異なるアノテーターが各QAペアをレビューし、言語表現の正確さ、質問の回答可能性、選択肢の合理性などが確認される。さらに、テキストのみで回答できるQAペアをフィルタリングするなどもされており(この確認には、Gemini 1.5 Proが使用されている)、動画コンテンツが回答に必須となるようになっている。

(➡ 高品質かつ多様でバランスの取れたデータセットを構成するために、かなり厳格なプロセスを踏んでいることが理解できる。

2.2 データセットの統計

ここでは、データセットの統計情報、その定性的な分析結果や過去研究との比較が紹介されている。

  • データ数
    • 計900本のビデオ、713本の字幕、869本の音声ファイルで構成されてる(ほとんどのビデオには字幕と音声が付随、外部情報がビデオ解析のパフォーマンスに与える影響を調査するための貴重なリソースとなっている)。
  • メタ情報
    • 図2にて動画時間の長さの分布やタスクタイプの分布が示されている。
  • QAペア
    • 正解選択肢の分布に偏りがないようにデータセットが設計されていることが示されている(4つの正解選択肢(A/B/C/D)の分布はほぼ均一(25.2%/27.2%/25.2%/22.3%)となっている)。
  • 証明書の長さの分布
    • QAペアの時間的難易度を分析するためのものを定量的に算出し、過去研究のものと比較している。特定のビデオQAペアの証明書は、人間の検証者に指定されたアノテーションが正しいことを納得させるために必要かつ十分なビデオのサブクリップの最小セットとして定義されます、とのこと。(➡証明書は、そのアノテーションが正しいと納得できる動画時間の長さ、これが長ければ難易度が高く、挑戦的なデータセットであるといえるし、Video-MMEはそのように設計されているとデータからも確認できる
  • 定性的分析
  • 過去の研究との比較
    • 文献のテーブル3にて、過去研究で用いられたデータセットと比較し、Video-MMEが包括的にMLLMsの評価を行えるものであることを示している。


テーブル 3: ビデオの数、クリップの数、ビデオの平均再生時間、ビデオの注釈のつけ方 (手動はM、自動はAで示される)、QAペアやそのトークンの平均数、字幕トークンの平均数、動画が複数の再生時間レベルをカバーしているかどうか、ビデオがオープンドメインから取得されているかどうか、字幕やオーディオ情報を提供しているかどうかなど、様々な比較がなされている。

3. 実験

このセクションでは、Video-MMEベンチマークを用いて様々なMLLMの性能が評価されている。まず、実験の設定について紹介され、次にオープンソースモデルとクローズドソースモデルの評価結果が示されている。最後に、直感的な理解を促すためにケーススタディが提示され、モダリティ情報(字幕とオーディオ情報のこと)や動画時間の長さの影響についての調査が示されている。

3.1 設定

評価は、 GPT-4V、GPT-4o、Gemini 1.5 Pro (➡6/4にGemini 1.5 Flashが追加されていた) という3つの商用モデルと、Video-LLaVA、VideoChat2、ST-LLM、Chat-UniVi-V1.5、LLaVA-NeXT-Videoという5つの代表的なオープンソースビデオMLLMで行われている。追加で、Qwen-VL-Chat/MaxやInternVL-Chat-V1.5といった高度な画像MLLMも評価に使用されている(こちらは、マルチモーダルではなく複数枚の画像のみを用いて評価を行ったケースであるということが言えると思われる)。

また、公式設定に従って、評価のためにより多くのフレームを使用するように努めます(サンプリングされたフレームの数は、GPT-4V/o では10、Video-LLaVAでは8、VideoChat2では16、ST-LLMでは64、Chat-UniVi-V1.5では32、LLaVA-NeXT-Videoでは32、Qwen-VL-Chat/Maxでは 4、InternVL-Chat-V1.5では10とのこと(➡モデルによって1動画あたりに使用するフレーム数は異なる点には注意)。
特に、Gemini 1.5 Proは非常に長いマルチモーダルコンテキストをサポートするため、短期および中期ビデオでは1秒ごとにフレームを取得します。長期ビデオではAPIテストの安定性を確保するために2秒ごとにフレームを取得します(➡Geminiは他のモデルと比べてより多くのフレームを処理できるようになっているとのこと、1秒1フレームで1分の動画だとすると、60枚の画像を入力できることになる。)。
字幕の追加設定に関しては、Gemini 1.5 Pro以外のすべてのモデルはサンプリングされたビデオフレームに対応する字幕を使用。Gemini 1.5 Proは全ビデオフレームのサンプリングのため、全字幕を使用。さらに、現時点で音声の入力をサポートしているのはGemini 1.5 Proのみとのこと、その結果は論文中表5に掲載されている(➡現時点でGeminiがかなりマルチモーダル的なモデルであることが分かると同時に、この時点で一番いい結果はでるだろうとも思えてしまった。

評価は「ビデオフレーム全体 + 字幕/音声全体 (オプション) + プロンプト付きの質問」という形式を採用。多肢選択式の質問にはモデルのデフォルトのプロンプトを使用するようしているが、
そうでない場合は、次のような一般的なプロンプトが使用されているとのこと。

This video’s subtitles are listed below: [Subtitles] Select the best answer to the following multiple-choice question based on the video. Respond with only the letter (A, B, C, or D) of the correct option. [Question] The best answer is:

精度については、ChatGPTなどのサードパーティモデルを導入せずに、モデルの出力を実際の出力と比較させることで計算している。

3.2 実験結果

文献のテーブル 4には、各モデルごとの精度がまとめられている(なお、プロジェクトページのLeaderboardには、最新の結果がまとめられているのでここではそちらを引用、掲載)。


プロジェクトページのLeaderBoard: Gemini 1.5 Proがトップ、商用モデルが上位を占めており、精度面でもオープンソースモデルと開きがあることが確認できる。

文献のテーブル 5には、Gemini 1.5 Proについて、モダリティ情報(字幕とオーディオ情報)を
追加したときの精度がまとめられている(6個の主要カテゴリ、動画時間長ごとで算出されている)。モデル全体的では、 Gemini 1.5 Proが75.7%(Overall、字幕なしでの精度)
と最も高い精度を出していることが確認できる。


テーブル 5: 6つの主要カテゴリにおける Gemini 1.5 Pro のパフォーマンス

また、オープンソースモデルとクローズドソースモデル(GPT-4V/oやGemini)との比較が述べられており、文献の図3では、タスクごとの精度が比較もされている。これらの結果から両者間の精度に開きがあることが確認できる(➡オープンソースモデルにはまだまだ改善の余地がある)。


図 3: タスクごとのパフォーマンス(4種のモデルで比較)。カウント問題、アクション認識、時間認識のタスクで両者の精度に大きな開きが確認できる。

3.3 Analysis

ここでは、ビデオ解析のパフォーマンスに影響を与える要因(追加の字幕やオーディオ情報、ビデオの長さ)について調査が述べられている。

Could additional modalities benefit the performance?
追加のモダリティ(字幕やオーディオ情報)はパフォーマンスにいい影響を与えるか?文献の図4,テーブル5において、モダリティを追加することでその精度が向上していることが示されている。また、Gemini 1.5 Proでは、長いビデオの場合に大きく精度が向上していることが示されていた。これは、長いビデオでは、より難しい質問が含まれており、モデルの正確な回答のために字幕とオーディオ情報を利用する必要があるためである。また、字幕とオーディオでは、字幕のほうが高い精度改善をもたらしていることが確認できる。この理由は、字幕はオーディオを書き起こした情報であることに対して、オーディオは環境音まで含まれているためであると述べられている(➡様々な環境音が含まれているので、情報の精度としてはあまり高くないのではないかと考えられる、字幕は動画内の音声を書き起こした情報であるため、整理した情報としてモデルにインプットできるためより精度向上に寄与しているのだろうと考察した)。
一方で、多言語カテゴリでは、オーディオが精度改善に大きく貢献していることも確認できた。
(オーディオには、歌声やイントネーションなど、字幕では表現できない状況も含まれているため、このようなカテゴリにおいては精度改善に寄与したのだと考察されている)。


図 4: モダリティ情報(字幕、オーディオ)の追加が、さまざまなサブカテゴリの動画における Gemini 1.5 Pro のパフォーマンスに及ぼす影響(図では10クラスのみ、プロジェクトページで全サブクラスの結果が確認可能)。

How MLLMs are robust to varied video duration?
MLLMsはさまざまなビデオの長さに対してどのようにロバストであるか?オープンソースモデルとクローズドソースモデルの両方で、動画の長さが長くなるほど精度が低下することが確認された。主な理由が3つ考察されている。

(1) 困難なタスクの割合の増加。文献図2の右下の図に示すように、長いビデオのテストサンプルでは、推論の質問の割合が高くなっている。これらの質問は、知覚および認識のタスクよりも難しいため、モデルにとって大きな課題となってしまう。(➡動画時間が長いと単に問題が難しくなる

(2) フレームのサンプリングのスパース性が増加し、有効な入力情報が減少してしまう。理想的には、長さの異なるビデオの場合、モデルは固定fpsでビデオフレームをサンプリングして、フレームシーケンス内の一貫した情報密度を確保する必要があるが、多くのオープンソースモデルは、入力フレームの数を8フレームなどに固定しているため、ビデオの長さが長くなるにつれて情報密度が過度に疎になり。この疎性により、モデルはすべての有用な視覚的意味を保持できず、正確な予測が妨げられてしまうということが原因と考察されている。これについては、字幕などの追加のモダリティを導入することで、不足している情報を補えると述べられている。

(3)長いコンテキストの理解が困難。動画が長くなっても入力フレーム数を増やせるGeminiにおいても、動画が長くなると精度が大きく低下してしまう。長いコンテキストの理解は、LLMsやMLLMsにとって大きな課題である(➡シンプルに動画(コンテキスト)が長いタスクは難しいということ)。

4. 議論

Video-MMEを使用した評価により、現在のMLLMsに関するいくつかの重要なポイントが明らかになり、今後の改善の余地が浮き彫りとなった。ここでは、さらに将来の方向性について議論されている。

Improving Long Context Modeling Capabilities of MLLMs
ビデオの時間が長くなるとパフォーマンスが低下することは重要な課題である。オープンソースモデルの場合、制限された入力フレーム数は、長いビデオのコンテンツ理解のためのボトルネックになる可能性ある。アーキテクチャだけでなく、インフラストラクチャとの両方で、コンテキスト拡張に対する革新的なアプローチが不可欠であると述べられており、その例が示されている(リングアテンション、トレーニング不要のコンテキスト拡張法、ビデオ内のキーフレームの適応的な選択、時間的Qフォーマー)。

Building Datasets with Complex Temporal Understanding
複雑な時間的理解を備えたデータセットの構築。長いビデオでの複雑な時間的推論を含む高品質のデータセットを構築する取り組みは行われてきたが、そのようなデータセットの可用性は、テキストのみのデータセットや画像データセットと比較するとまだまだ不十分であるが、取得は困難であるとのこと。ヒューマンインザループフレームワークや自動データ合成探索などのより優れたアノテーションパラダイム(手法)に向けた取り組みが重要と述べられている。(➡このようなデータセットをより効率よく作成・拡張していけるような枠組みは、今後のMLLMsの発展にとって非常に重要であると考える)。


さいごに(所感)

非常に興味深いベンチマークでした。厳格なプロセスに基づいたデータセット構築が行われており、State-of-the-artなベンチマークになっていると思います。(今後のデータセット作成に大いに参考になるという部分は多かった。)

また、動画を理解する方法(アーキテクチャ)やモダリティ追加による精度向上に関する考察など、この文献から得られるものは多かった。Gemini 1.5 Proが他のモデルと比較して、入力フレーム数やオーディオ含めて多くの情報を使えるので最も精度がよかったというのは、ある種当たり前の結果なのだが、現時点でこれらの情報が同時に扱えるというモデルであるという点は評価されるべきだと思った。また、それができるからこそ、モダリティ追加における考察がこの論文で語られているともいえる。Geminiいい感じ、あとは(同じ枠組みでできるかはわからないけど)他の商用モデルとかの比較とかもあるともっとよかったと思うが、プロジェクトページを見る限り追加されて行っているので今後に期待!

あと、動画時間が長くなると難しくなる問題については、やっぱり難しいところだと感じる。
おそらく今のアーキテクチャで、動画時間を長くすること自体に無理があるようにも思うので、
モダリティの追加なども含めて、違ったアプローチを考えていく必要があると感じました。

おわり

Discussion