🧠 InternVL 3.5解説:Cascade RLと視覚アーキテクチャ設計の革新
📝 概要
この記事では、「InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency」について、技術的革新とQwen 2.5-VLとの比較を中心に解説する。InternVL 3.5は推論性能で+16.0%、推論速度で4.05倍の改善を実現した画期的なマルチモーダルLLMだ。
🔬 InternVL 3.5の技術革新
Cascade強化学習フレームワーク
InternVL 3.5の最大の革新はCascade RLだ。これは従来のオフライン・オンライン強化学習の利点を組み合わせた2段階のフレームワークである。
段階1: Mixed Preference Optimization (MPO)
ここで
段階2: Group Sequence Policy Optimization (GSPO)
この設計により、オフライン段階で安定した収束を確保し、オンライン段階で性能上限を押し上げることができる。
Visual Resolution Router (ViR)
ViRは画像パッチごとに動的に圧縮率を選択するメカニズムだ。各パッチは意味的な重要度に応じて1/4または1/16の圧縮率が適用される。
一貫性学習段階では、異なる圧縮率での出力分布の発散を最小化する:
Decoupled Vision-Language Deployment (DvD)
DvDは視覚エンコーダと言語モデルを異なるGPUに配置し、非同期3段階パイプラインを構築する。この設計により最大2.01倍の推論高速化を実現している。
🏗️ アーキテクチャ比較:InternVL 3.5 vs Qwen 2.5-VL
視覚エンコーダ設計の根本的違い
InternVL 3.5のタイリング戦略
- 画像を448×448のタイルに分割
- 各タイルは1024トークンから256トークンに圧縮(Pixel Shuffle)
- グローバルサムネイルで全体コンテキストを保持
- 最大128タイルまで対応(テスト時)
Qwen 2.5-VLのネイティブ動的解像度
- タイリングなしのネイティブ動的解像度ViT
- Window Attentionで計算量制御(4層のみフル注意、他は8×8窓)
- トークン予算インターフェース(4-16,384トークン/画像)
- 元のアスペクト比・スケールを保持
実際の利用における設定の違い
InternVL 3.5の高解像度設定
- デフォルト: 最大12タイル,例えば896x1344画像は2x3=6タイル
-
高解像度処理:
-
事前設定が必要:
max_dynamic_patch
を手動で設定, 24や36などに設定し高解像度の画像を処理する - 詳細はconfig.jsonを参照して下さい。
-
事前設定が必要:
Qwen 2.5-VLの自動解像度
- 設定不要: 公式Configでは非常に大きい画像サイズ(3584×3584)に対応しています。
- 詳細はpreprocessor_config.jsonを参照してください。
設計思想の違い
InternVL 3.5のDHRは「極高解像度を直接処理する」よりも、固定サイズ(448×448)のViTを再利用しつつ、タイル数を増やしてスケールさせる設計。対してQwen 2.5-VLはネイティブ解像度の連続視野を保ち、ウィンドウ注意とトークン予算で計算を制御する。
📊 性能比較と実用的ガイダンス
OCR・文書理解タスク
文書中心タスクではQwen 2.5-VL-72Bが優位:
- ChartQA: 89.5 (Qwen) vs 88.0 (InternVL 3.5-241B)
- DocVQA: 96.4 (Qwen) vs 94.9 (InternVL 3.5-241B)
- InfoVQA: 87.3 (Qwen) vs 82.0 (InternVL 3.5-241B)
理由:連続した視野がページ読解に有効で、タイル境界による情報断片化を回避できるため。
空間グラウンディング
InternVL 3.5がRefCOCOシリーズで最先端:
- RefCOCO overall: 92.4 (InternVL 3.5-241B)
- 複数高解像度タイルとグローバルサムネイルの効果的な融合
実用的な選択指針
OCR/請求書/表/チャート分析 → Qwen 2.5-VL-72B
- 優れたDocVQA(96.4)とChartQA(89.5)性能
- ネイティブJSON座標出力対応
言語条件付き空間グラウンディング → InternVL 3.5
- RefCOCOファミリーでSOTA性能
- 14B以上で極めて競争力のある結果
大規模高解像度処理 → InternVL 3.5 + ViR + DvD
- ViRで50%のトークン削減、性能はほぼ100%維持
- DvD + ViRで最大4.05倍の推論高速化
💡 技術的洞察
強化学習の安定性
Cascade RLの優位性:
- 訓練安定性: オフライン段階でreward hackingを軽減
- 計算効率: rollout共有でサンプリングコスト削減
- 性能上限: 段階的改善で高い天井を実現
インフラストラクチャの最適化
DvDの設計原理:
- 視覚エンコーダ:高並列化可能、履歴状態不要
- 言語モデル:自己回帰的、メモリ帯域幅に敏感
- 分離により相互ブロッキングを解消
🔥 実験結果
InternVL 3.5-241B-A28Bの主要成果:
- MMMU: 77.7(推論タスク)
- MathVista: 82.7(数学的視覚推論)
- OCRBench: 907(文字認識)
- RefCOCO: 92.4(空間グラウンディング)
商用モデルGPT-5との差をわずか3.9%まで縮小した。
🚀 まとめ
InternVL 3.5は以下の革新により、オープンソースマルチモーダルLLMの新境地を開拓した:
- Cascade RL: オフライン・オンライン強化学習の効果的な組み合わせ
- ViR: 意味的重要度に基づく動的解像度制御
- DvD: 視覚・言語処理の分離による推論高速化
Qwen 2.5-VLとの比較では、文書理解でQwenが、空間グラウンディングでInternVLがそれぞれ優位性を示している。用途に応じた適切な選択が重要だ。
これらの技術革新は、実用的なマルチモーダルAIシステムの構築において重要な指針を提供している。
Discussion