👋

🧠 InternVL 3.5解説:Cascade RLと視覚アーキテクチャ設計の革新

に公開

📝 概要

この記事では、「InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency」について、技術的革新とQwen 2.5-VLとの比較を中心に解説する。InternVL 3.5は推論性能で+16.0%、推論速度で4.05倍の改善を実現した画期的なマルチモーダルLLMだ。

🔬 InternVL 3.5の技術革新

Cascade強化学習フレームワーク

InternVL 3.5の最大の革新はCascade RLだ。これは従来のオフライン・オンライン強化学習の利点を組み合わせた2段階のフレームワークである。

段階1: Mixed Preference Optimization (MPO)

\mathcal{L}_{\text{MPO}} = w_p \mathcal{L}_p + w_q \mathcal{L}_q + w_g \mathcal{L}_g

ここで\mathcal{L}_p\mathcal{L}_q\mathcal{L}_gはそれぞれ選好損失、品質損失、生成損失を表す。

段階2: Group Sequence Policy Optimization (GSPO)

\mathcal{L}_{\text{GSPO}}(\theta) = \mathbb{E} \left[ \frac{1}{G} \sum_{i=1}^G \text{min}(s_i(\theta) \widehat{A}_i, \text{clip}(s_i(\theta), 1-\varepsilon, 1+\varepsilon) \widehat{A}_i) \right]

この設計により、オフライン段階で安定した収束を確保し、オンライン段階で性能上限を押し上げることができる。

Visual Resolution Router (ViR)

ViRは画像パッチごとに動的に圧縮率を選択するメカニズムだ。各パッチは意味的な重要度に応じて1/4または1/16の圧縮率が適用される。

一貫性学習段階では、異なる圧縮率での出力分布の発散を最小化する:

\mathcal{L}_{\text{ViCO}} = \mathbb{E}_{\xi \sim \mathcal{R}} \left[ \frac{1}{N} \sum_{i=1}^N \text{KL}(\pi_{\theta_{ref}}(y_i | y_{<i}, I) \| \pi_{\theta_{policy}}(y_i | y_{<i}, I_{\xi})) \right]

Decoupled Vision-Language Deployment (DvD)

DvDは視覚エンコーダと言語モデルを異なるGPUに配置し、非同期3段階パイプラインを構築する。この設計により最大2.01倍の推論高速化を実現している。

🏗️ アーキテクチャ比較:InternVL 3.5 vs Qwen 2.5-VL

視覚エンコーダ設計の根本的違い

InternVL 3.5のタイリング戦略

  • 画像を448×448のタイルに分割
  • 各タイルは1024トークンから256トークンに圧縮(Pixel Shuffle)
  • グローバルサムネイルで全体コンテキストを保持
  • 最大128タイルまで対応(テスト時)

Qwen 2.5-VLのネイティブ動的解像度

  • タイリングなしのネイティブ動的解像度ViT
  • Window Attentionで計算量制御(4層のみフル注意、他は8×8窓)
  • トークン予算インターフェース(4-16,384トークン/画像)
  • 元のアスペクト比・スケールを保持

実際の利用における設定の違い

InternVL 3.5の高解像度設定

  • デフォルト: 最大12タイル,例えば896x1344画像は2x3=6タイル
  • 高解像度処理:
    • 事前設定が必要: max_dynamic_patchを手動で設定, 24や36などに設定し高解像度の画像を処理する
    • 詳細はconfig.jsonを参照して下さい。

Qwen 2.5-VLの自動解像度

  • 設定不要: 公式Configでは非常に大きい画像サイズ(3584×3584)に対応しています。
  • 詳細はpreprocessor_config.jsonを参照してください。

設計思想の違い

\text{InternVL 3.5} = \text{固定448×448 ViTの再利用と解像度スケーリング} \quad \text{vs} \quad \text{Qwen 2.5-VL} = \text{空間連続性とトークン予算制御}

InternVL 3.5のDHRは「極高解像度を直接処理する」よりも、固定サイズ(448×448)のViTを再利用しつつ、タイル数を増やしてスケールさせる設計。対してQwen 2.5-VLはネイティブ解像度の連続視野を保ち、ウィンドウ注意とトークン予算で計算を制御する。

📊 性能比較と実用的ガイダンス

OCR・文書理解タスク

文書中心タスクではQwen 2.5-VL-72Bが優位:

  • ChartQA: 89.5 (Qwen) vs 88.0 (InternVL 3.5-241B)
  • DocVQA: 96.4 (Qwen) vs 94.9 (InternVL 3.5-241B)
  • InfoVQA: 87.3 (Qwen) vs 82.0 (InternVL 3.5-241B)

理由:連続した視野がページ読解に有効で、タイル境界による情報断片化を回避できるため。

空間グラウンディング

InternVL 3.5がRefCOCOシリーズで最先端:

  • RefCOCO overall: 92.4 (InternVL 3.5-241B)
  • 複数高解像度タイルとグローバルサムネイルの効果的な融合

実用的な選択指針

OCR/請求書/表/チャート分析Qwen 2.5-VL-72B

  • 優れたDocVQA(96.4)とChartQA(89.5)性能
  • ネイティブJSON座標出力対応

言語条件付き空間グラウンディングInternVL 3.5

  • RefCOCOファミリーでSOTA性能
  • 14B以上で極めて競争力のある結果

大規模高解像度処理InternVL 3.5 + ViR + DvD

  • ViRで50%のトークン削減、性能はほぼ100%維持
  • DvD + ViRで最大4.05倍の推論高速化

💡 技術的洞察

強化学習の安定性

Cascade RLの優位性:

  1. 訓練安定性: オフライン段階でreward hackingを軽減
  2. 計算効率: rollout共有でサンプリングコスト削減
  3. 性能上限: 段階的改善で高い天井を実現

インフラストラクチャの最適化

DvDの設計原理:

  • 視覚エンコーダ:高並列化可能、履歴状態不要
  • 言語モデル:自己回帰的、メモリ帯域幅に敏感
  • 分離により相互ブロッキングを解消

🔥 実験結果

InternVL 3.5-241B-A28Bの主要成果:

  • MMMU: 77.7(推論タスク)
  • MathVista: 82.7(数学的視覚推論)
  • OCRBench: 907(文字認識)
  • RefCOCO: 92.4(空間グラウンディング)

商用モデルGPT-5との差をわずか3.9%まで縮小した。

🚀 まとめ

InternVL 3.5は以下の革新により、オープンソースマルチモーダルLLMの新境地を開拓した:

  1. Cascade RL: オフライン・オンライン強化学習の効果的な組み合わせ
  2. ViR: 意味的重要度に基づく動的解像度制御
  3. DvD: 視覚・言語処理の分離による推論高速化

Qwen 2.5-VLとの比較では、文書理解でQwenが、空間グラウンディングでInternVLがそれぞれ優位性を示している。用途に応じた適切な選択が重要だ。

これらの技術革新は、実用的なマルチモーダルAIシステムの構築において重要な指針を提供している。

Discussion