👋

🧠 InternVL 3.5解説：Cascade RLと視覚アーキテクチャ設計の革新

2025/09/07に公開

 📝 概要この記事では、「InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency」について、技術的革新とQwen 2.5-VLとの比較を中心に解説する。InternVL 3.5は推論性能で+16.0%、推論速度で4.05倍の改善を実現した画期的なマルチモーダルLLMだ。

 🔬 InternVL 3.5の技術革新
 Cascade強化学習フレームワークInternVL 3.5の最大の革新はCascade RLだ。これは従来のオフライン・オンライン強化学習の利点を組み合わせた2段階のフレームワークである。
段階1: Mixed Preference Optimization (MPO)

\mathcal{L}_{\text{MPO}} = w_p \mathcal{L}_p + w_q \mathcal{L}_q + w_g \mathcal{L}_g
ここで\mathcal{L}_p、\mathcal{L}_q、\mathcal{L}_gはそれぞれ選好損失、品質損失、生成損失を表す。
段階2: Group Sequence Policy Optimization (GSPO)

\mathcal{L}_{\text{GSPO}}(\theta) = \mathbb{E} \left[ \frac{1}{G} \sum_{i=1}^G \text{min}(s_i(\theta) \widehat{A}_i, \text{clip}(s_i(\theta), 1-\varepsilon, 1+\varepsilon) \widehat{A}_i) \right]
この設計により、オフライン段階で安定した収束を確保し、オンライン段階で性能上限を押し上げることができる。

 Visual Resolution Router (ViR)ViRは画像パッチごとに動的に圧縮率を選択するメカニズムだ。各パッチは意味的な重要度に応じて1/4または1/16の圧縮率が適用される。
一貫性学習段階では、異なる圧縮率での出力分布の発散を最小化する：
\mathcal{L}_{\text{ViCO}} = \mathbb{E}_{\xi \sim \mathcal{R}} \left[ \frac{1}{N} \sum_{i=1}^N \text{KL}(\pi_{\theta_{ref}}(y_i | y_{<i}, I) \| \pi_{\theta_{policy}}(y_i | y_{<i}, I_{\xi})) \right]
 Decoupled Vision-Language Deployment (DvD)DvDは視覚エンコーダと言語モデルを異なるGPUに配置し、非同期3段階パイプラインを構築する。この設計により最大2.01倍の推論高速化を実現している。

 🏗️ アーキテクチャ比較：InternVL 3.5 vs Qwen 2.5-VL
 視覚エンコーダ設計の根本的違いInternVL 3.5のタイリング戦略
画像を448×448のタイルに分割
各タイルは1024トークンから256トークンに圧縮（Pixel Shuffle）
グローバルサムネイルで全体コンテキストを保持
最大128タイルまで対応（テスト時）
Qwen 2.5-VLのネイティブ動的解像度
タイリングなしのネイティブ動的解像度ViT

Window Attentionで計算量制御（4層のみフル注意、他は8×8窓）
トークン予算インターフェース（4-16,384トークン/画像）
元のアスペクト比・スケールを保持

 実際の利用における設定の違いInternVL 3.5の高解像度設定

デフォルト: 最大12タイル,例えば896x1344画像は2x3=6タイル

高解像度処理:

事前設定が必要: max_dynamic_patchを手動で設定, 24や36などに設定し高解像度の画像を処理する
詳細はconfig.jsonを参照して下さい。

Qwen 2.5-VLの自動解像度

設定不要: 公式Configでは非常に大きい画像サイズ（3584×3584）に対応しています。
詳細はpreprocessor_config.jsonを参照してください。

 設計思想の違い\text{InternVL 3.5} = \text{固定448×448 ViTの再利用と解像度スケーリング} \quad \text{vs} \quad \text{Qwen 2.5-VL} = \text{空間連続性とトークン予算制御}InternVL 3.5のDHRは「極高解像度を直接処理する」よりも、固定サイズ(448×448)のViTを再利用しつつ、タイル数を増やしてスケールさせる設計。対してQwen 2.5-VLはネイティブ解像度の連続視野を保ち、ウィンドウ注意とトークン予算で計算を制御する。

 📊 性能比較と実用的ガイダンス
 OCR・文書理解タスク文書中心タスクではQwen 2.5-VL-72Bが優位：

ChartQA: 89.5 (Qwen) vs 88.0 (InternVL 3.5-241B)

DocVQA: 96.4 (Qwen) vs 94.9 (InternVL 3.5-241B)

InfoVQA: 87.3 (Qwen) vs 82.0 (InternVL 3.5-241B)
理由：連続した視野がページ読解に有効で、タイル境界による情報断片化を回避できるため。

 空間グラウンディングInternVL 3.5がRefCOCOシリーズで最先端：

RefCOCO overall: 92.4 (InternVL 3.5-241B)
複数高解像度タイルとグローバルサムネイルの効果的な融合

 実用的な選択指針OCR/請求書/表/チャート分析 → Qwen 2.5-VL-72B
優れたDocVQA（96.4）とChartQA（89.5）性能
ネイティブJSON座標出力対応
言語条件付き空間グラウンディング → InternVL 3.5
RefCOCOファミリーでSOTA性能
14B以上で極めて競争力のある結果
大規模高解像度処理 → InternVL 3.5 + ViR + DvD
ViRで50%のトークン削減、性能はほぼ100%維持
DvD + ViRで最大4.05倍の推論高速化

 💡 技術的洞察
 強化学習の安定性Cascade RLの優位性：

訓練安定性: オフライン段階でreward hackingを軽減

計算効率: rollout共有でサンプリングコスト削減

性能上限: 段階的改善で高い天井を実現

 インフラストラクチャの最適化DvDの設計原理：
視覚エンコーダ：高並列化可能、履歴状態不要
言語モデル：自己回帰的、メモリ帯域幅に敏感
分離により相互ブロッキングを解消

 🔥 実験結果InternVL 3.5-241B-A28Bの主要成果：

MMMU: 77.7（推論タスク）

MathVista: 82.7（数学的視覚推論）

OCRBench: 907（文字認識）

RefCOCO: 92.4（空間グラウンディング）
商用モデルGPT-5との差をわずか3.9%まで縮小した。

 🚀 まとめInternVL 3.5は以下の革新により、オープンソースマルチモーダルLLMの新境地を開拓した：

Cascade RL: オフライン・オンライン強化学習の効果的な組み合わせ

ViR: 意味的重要度に基づく動的解像度制御

DvD: 視覚・言語処理の分離による推論高速化
Qwen 2.5-VLとの比較では、文書理解でQwenが、空間グラウンディングでInternVLがそれぞれ優位性を示している。用途に応じた適切な選択が重要だ。
これらの技術革新は、実用的なマルチモーダルAIシステムの構築において重要な指針を提供している。

📝 概要

🔬 InternVL 3.5の技術革新

Cascade強化学習フレームワーク

Visual Resolution Router (ViR)

Decoupled Vision-Language Deployment (DvD)

🏗️ アーキテクチャ比較：InternVL 3.5 vs Qwen 2.5-VL

視覚エンコーダ設計の根本的違い

実際の利用における設定の違い

設計思想の違い

📊 性能比較と実用的ガイダンス

OCR・文書理解タスク

空間グラウンディング

実用的な選択指針

💡 技術的洞察

強化学習の安定性

インフラストラクチャの最適化

🔥 実験結果

🚀 まとめ

Discussion