コンテキストが長くても賢くならない理由 ― LVLMの読み取り力を分析
今回の記事では、「大規模視覚言語モデル(LVLM)が長いコンテキストをどこまで理解できるのか?」を評価するベンチマークを提案する論文について、簡単にまとめました。
本編
一言でいうと
大規模視覚言語モデル (LVLM) の急速な進歩により、最近のモデルは「コンテキストウィンドウ (読める長さ)」が大きくなり、何万トークンもの情報を一度に入力できるようになっています。しかし、読むことができても、モデルがそのコンテキストから本当に必要な情報探し出して効果的に活用できるとは限りません。
そこで、長コンテキストから正しく情報を探し出す能力を評価するベンチマークを提案し、分析を実施しました。
分析の結果、正しく回答する能力とコンテキストから必要な情報を探し出す能力にはギャップがあることや、多くのモデルは正しい答えを出力できるがその出典を特定できず、コンテキストよりもモデル内の知識に依存する傾向があることを明らかにしました。
概要
大規模視覚言語モデル (LVLM) の近年の進展によって、テキスト・画像・動画などが混在した大規模な情報を処理できるようになり、そのコンテキストウィンドウは著しく拡張されています。しかし、長いコンテキストの情報を忠実に利用できているとは限りません。与えられた情報とモデルが持つ知識 (学習時に蓄えた情報) が矛盾すると、モデルは自身の知識を優先して、コンテキストを無視した応答 (ハルシネーション) を生成してしまうことがあります。
モデルが長コンテキストを真に理解しているかどうかを知るには、単に生成する回答の正しさだけを評価するのではなく、与えられた情報に基づいて回答を導き出したのか、モデルが持つ知識を再生しただけなのかを確かめる必要があります。このようにLVLMの生成結果がコンテキストにどれだけ忠実であるかを、本論文では Fidelity (忠実性) と呼びます。
LVLMの忠実性を定量化する手法として、モデルに応答とともに引用を生成させる引用生成 (citation generation) が注目されています。ユーザに対して情報の出典を追えるようにすることで、応答の信頼性が評価可能となります。
既存の引用生成ベンチマークはテキストが多く、マルチモーダルなものは十分ではありません。そこで、LVLMの忠実性を評価するために、長コンテキスト・マルチモーダル引用を目的としたベンチマーク「MMLongCite」を構築します。
データセット

MMLongCiteは、4つのタスクで構成されています。
-
単一ソース視覚推論 (Single-Source Visual Reasoning)
画像のみで構成された長コンテキストを処理するモデルの能力を評価します。論文などの連続性のある文書画像では、異なる長さの文書画像に対して文書の長さをそろえつつ、「答えとなる情報の前後関係」が変わらないように、前後のコンテキストをもとの比率で短く切り取って作成します。離散的な画像群については、ノイズ画像を混ぜて長コンテキストを構築します。 -
複数ソース視覚推論 (Multi-Source Visual Reasoning)
画像とテキストが交互に現れる長コンテキストを処理するモデル能力を評価します。画像orテキストである正解情報を、多数のノイズ画像やテキストの中に混ぜて、コンテキスト長が違ってもデータが偏らないように均等に配置することで作成します。 -
視覚的根拠付け (Vision Grounding)
多数の画像を1枚にまとめてその中から根拠となる箇所を見つけさせることで、画像のどの位置に根拠があるかを見つける能力を評価します。Easyでは4枚の画像を1枚の画像に、Hardではコンテキストのすべての画像を1枚の画像にまとめます。 -
動画理解 (Video Understanding)
動画をそのまま静止画にすると、1秒あたり30フレームなどの膨大なフレーム数となり、現行モデルのコンテキストウィンドウを大幅に超過してしまいます。そのため、すべての動画をFFmpegで1fpsにダウンサンプリングし、そこから異なる長さのサンプルを抽出して評価セットを作成します。
なおモデルが引用を生成できるように、コンテキスト中の各画像・フレーム・テキスト部分には固有の引用インデックスが割り当てられています。
実験
最新の12種類のLVLM(大規模視覚言語モデル)を評価しました。10モデルはオープンソース、2モデルは商用モデルです。
評価は引用品質 (Citation Quality)、生成品質 (Generation Quality) の観点で行います。引用品質の指標としては、引用適合率 (CP: Citation Precision)、引用再現率 (CR: Citation Recall)、およびそのF1スコア (F1) を用います。生成品質の指標としては、モデルの最終的な応答が正しいかを示す正答度 (Cor: Correctness) を用います。

Qwenシリーズを見ると、モデルパラメータ増加に伴って特に引用品質が明確に向上しています。すなわち、モデルのスケーリングは引用性能を高める有効な戦略であることが分かります。
また、推論モードの有無による結果比較から、Chain-of-Thought (CoT) は引用付き応答生成において「諸刃の剣」として働くことが明らかとなりました。具体的には、GLM-4.5Vの結果を見ると、推論モードを有効化すると多くのタスクで正答率 (Cor) および引用適合率 (CP) が大幅に向上しています。
一方、引用再現率 (CR) は全体的に低下する傾向が見て取れます。これは、CoTは慎重な推論を促進することで最終的な生成品質を上げますが、引用が保守的になってしまい、一部の関連根拠を見落とすというトレードオフを示していると考えられます。

より困難な条件下における視覚的根拠付けの能力を評価します。
「Easy」と「Hard」を比べると、全モデルで F1 と 正答率 (Cor) どちらも低下しています。例えば、Gemini-2.5-ProはHotpotQA-Easyにおいて F1=91.99 を達成していましたが、HotpotQA-Hardでは60ポイント以上劣化しています。同様に、Qwen2.5-VL-72BのF1はLongDocURLで 39.75 → 19.69 に低下しています。これらの結果は、画像の中に情報が密集していると、モデルはどの部分が質問の答えに関係しているかを正しく特定できず、「どこを見て答えるべきか」を間違えやすいといえます。
また、商用モデルとオープンソースモデルを比較すると、顕著な差異があります。Gemini-2.5-Proはオープンソースモデルを上回っており、特にCitation F1において優位です。一方で、正答率 (Cor) を見ると、引用性能が弱いにもかかわらず、Qwen2.5-VL-72Bは時にGemini-2.5-Proと同等、あるいは上回る正答率を示すことがあります。例えばLongDocURL-Hardでは、Qwen2.5-VL-72B の正答率は 53.21、Gemini-2.5-Pro は 51.67 です。
これは、両モデルの推論戦略の違いを示していると考えられます。Gemini-2.5-Proは視覚的な根拠に依存するのに対して、Qwen2.5-VL-72Bはモデル内の知識に基づく推論を利用しており、コンテキストに引用情報がなくても正しい答えを導ける場合があると考えられます。

コンテキスト長の増加がモデル性能に与える影響を評価します。
Qwen2.5-VLシリーズは、コンテキストが長くなるにつれて性能が著しく低下することが明らかであり、特に小規模モデル (例:Qwen2.5-VL-3B、7B) は、長大なコンテキストから関連情報を適切に検索することに苦戦しています。一方で、大規模モデル (Qwen2.5-VL-72B) は比較的頑健ではあるものの、Citation F1は明確に低下しています。これらの結果から、下記の2点が明確となりました。
- 正しい回答を生成することと、正しい引用をすることの間にはギャップがある
- 単にコンテキストウィンドウを広げるだけでは、長コンテキスト内の必要な情報を効果的に利用できるとは限らない

「正しい情報がコンテキスト内のどの位置にあるか」が精度に与える影響を調べます。
ここから2点のことが明らかになりました。
まず、「Lost-in-the-Middle」問題 が確認されています。多くのモデルで、コンテキストの中央 (全体の40〜60%の位置) に対象の情報が存在する場合、Citation F1 (上段) と正答率 (下段) のどちらも赤色へと低下しています。
第2に、回答能力と引用能力の乖離が顕著に見られています。下段の正答率が上段の引用精度を大きく上回ることから、モデルは回答を導くための情報にはアクセスできているものの、その正確な引用情報の位置を見つけることが苦手であることが示唆されます。
以上をまとめると、実験からは下記のような示唆が得られました。
- 回答の正確さと引用の忠実性にはギャップがある
- 多くのモデルは正しい答えを出力できるがその出典を特定できず、コンテキストよりもモデル内の知識に依存する傾向がある
- モデルのスケーリングは引用性能を高める
- 推論モードは最終的な回答精度を上げるが、関連情報を見落としやすくなる
- 画像の中に情報が密集していると、特に関連情報を見落としやすい
- コンテキストの中央にある情報は見落としやすい
- 単にコンテキストウィンドウを広げるだけでは、長コンテキスト内の必要な情報を効果的に利用できるとは限らない
まとめ
一般的に、コンテキストウィンドウが長ければ長いほど、LVLMを利用できる場面は増えます。例えば、本やマニュアルのようなページ数の多い文書や、動画フレーム、RAGなどは典型例かと思います。
最近のモデルは何万トークンもの長い文書や画像を一度に入力できますが、実際にはその中から正しく情報を探して使うのはまだ得意ではありません。このことは、長文や大量の画像を扱う実務システムでも重要な示唆を与えるかと思います。
最終的には、LVLMが「どこから答えを導いたのか」を説明できるようになることで、AIの信頼性・透明性の向上につながると期待されます。
Discussion