😃

マルチモーダルモデル融合の試し:Vision-Language ModelとLanguage Modelの間の選択的パラメータ統合

に公開

From: https://necou.github.io/research/2025/03/13/multimodal-fusion.html
date: 2025-3-13
categories: research
author: Haochen Zhang, Yuyang Dong, Chuan Xiao

こんにちは、NECの董于洋です。VLMのモデルマージの試しについて共有します。

主な発見

最近、モデルフュージョンの世界に深く潜り込んでおり、Vision-Language Models (VLMs)と従来のLanguage Models (LLMs)を組み合わせることについての興味深い発見を共有できることを嬉しく思います。

実は、すべてのパラメータを一緒に投入するのが正解ではなかったのです!私たちの実験から、より慎重で選択的なアプローチが劇的に良い結果をもたらすことが明らかになりました。勝利戦略は?VLMの元の埋め込み層を保持しながら、self-attentionメカニズムのみをマージすることです。これは、これらのモデルが視覚情報をどのように処理するかを考えると、直感的に理解できます。

さらに興味深いのは、最適なマージ戦略がネットワークを通過するにつれて変化することです。初期層はVLMのオリジナルパラメータに近い状態を維持する方が良い結果を出す一方、深層ではLLMの言語能力をより多く取り入れることができます。この段階的なアプローチは、私たちのすべてのベンチマークで一様なマージ戦略を一貫して上回りました。

背景:マルチモーダルシステムにおけるモデルフュージョン

VLMとLLMが同じベースアーキテクチャ(Qwen2.5-VL-7BとQwen2.5-7B-Instructionなど)を共有している場合、互換性のある言語処理コンポーネントが存在し、それらを統合するのに最適な候補となります。一般的に、VLMはビジョンエンコーダーとLLMアーキテクチャで構成されており、これが部分的なパラメータ統合の道を開きます。

モデル統合の一般的なアプローチには、パラメータ平均化、タスク算術、アダプターフュージョンなどがあります。しかし、これらの方法はしばしばすべてのパラメータを同等に扱うか、タスク固有の適応に狭く焦点を当てています。私たちは、これらのモデルの異なるコンポーネントがマルチモーダル情報をどのように処理するかに基づいた、より微妙なアプローチを試みたいと考えました。

Layer weights distribution

図1:モデル層全体での3つの異なる重み分布戦略の図。方法1は一定の重みを適用し、方法2と3は深層でLLMの影響を徐々に増加させます。

研究仮説

これらのモデルがどのように機能するかの理解に基づいて、私たちは2つの重要な仮説を立てました:

仮説1:選択的コンポーネントフュージョン

すべてをマージするよりも、VLMのオリジナルの埋め込みテンソルを保持しながら、self-attentionテンソルのみをマージする方が良い結果が得られると考えました。なぜか?VLMの埋め込みテンソルはテキストと視覚トークンの両方を処理するために特別に最適化されているのに対し、LLMの埋め込みはテキストしか見たことがないからです。

仮説2:層ごとの段階的マージ

層全体で統合の重みを変えることが均一なマージよりも優れていると予想しました。アイデアは、初期層ではVLMの影響をより大きくし、深層ではLLMの影響をより多くすることでした。これは理にかなっています。なぜなら、初期層は視覚トークンをより生の形に近い状態で処理するのに対し、深層はより抽象的な表現を扱い、LLMの言語理解の恩恵を受ける可能性があるからです。

実験設定

モデルとデータセット

  • ベースVLM: Qwen2.5-VL-7B-Instruct
  • コンポーネントLLM: Qwen2.5-7B-Instruct
  • 評価データセット: MATH-VとMath-Visita mini(両方とも視覚-テキスト推論を含む)

マージ設定

パラメータ選択に関して2つの異なるアプローチを比較しました:

  • 設定1:埋め込みテンソル、レイヤーノーム、MLPを含むすべてのLLMテンソルのマージ
  • 設定2:各層のself-attentionテンソルのみをマージ

マージ方法

マージの重みを決定するための3つの異なる戦略を探りました:

  • 方法1:グローバルウェイトマージング - マージされたすべてのパラメータに単一のグローバルな重み比率を適用
  • 方法2:線形層別段階的マージング - 初期層から深層へとLLMの影響を線形的に増加
  • 方法3:対数線形層別段階的マージング - 層全体でLLMの影響を対数スケールで増加

重み表記

実験では、モデルマージングに標準的な補間式を使用しました:

(1 - α)θ(VLM) + αθ(LLM) = θ(Merged)

ここでαはLLMパラメータに与えられる重みを表します:

  • α = 0.4: 60% VLM + 40% LLM影響
  • α = 0.5: 50% VLM + 50% LLM影響
  • α = 0.6: 40% VLM + 60% LLM影響

この式はマージされる各テンソルに適用されます。例えば、α = 0.4の場合、各マージテンソルは、オリジナルのVLMテンソルが最終値に60%、LLMテンソルが40%寄与する重み付き組み合わせとなります。

結果と分析

全体的なパフォーマンス比較

実験により、異なる構成間でいくつかの興味深いパターンが明らかになりました:

Performance Heatmap

図2:すべての実験構成にわたるパフォーマンスのヒートマップ視覚化。色の強度は精度を表し、濃い青はより高いパフォーマンスを示します。

仮説1:選択的コンポーネントフュージョン

設定2(self-attentionのみ)は、ほとんどの方法と重みの組み合わせで設定1(すべてのテンソル)を一貫して上回りました。この違いは特にMath-Vista miniデータセットで顕著でした。

Settings Comparison
図3:異なる方法-重み組み合わせにおける設定1と設定2の直接比較。設定2は一般的に、特にMath-Vista miniデータセットでより高い精度を達成しています。

改善は、直接のパフォーマンスの差を見るとさらに明確になります:

Delta Improvement
図4:各構成における設定1に対する設定2のパフォーマンス向上。正の値(青)は設定2が設定1を上回る場所を示します。

図4に見られるように、設定2は両方のデータセットにわたる18の比較のうち16で設定1を上回っています。MATH-Vの場合、設定2は9ケース中7ケースで改善を示し、平均0.94パーセントポイントの改善を示しています。Math-Vista miniの場合、結果はさらに強力です - 設定2は9つの比較すべてで設定1を上回り、平均3.93パーセントポイントの利益を得ています。

これは、VLMの埋め込みテンソルを保持しながらself-attentionコンポーネントのみをマージするとパフォーマンスが向上するという最初の仮説を強く支持しています。この改善は特に、より強力な視覚的推論能力(Math-Vista mini)を必要とするタスクで顕著であり、VLMの埋め込みテンソルを保持することが実際に重要であることを示唆しています。

仮説2:層ごとの段階的マージ

私たちの2番目の仮説は、層ごとの増加方法(方法2と3)がグローバルウェイトフュージョン(方法1)を上回ると予測しました。結果は、すべての構成とデータセットにわたって79.2%の成功率でこの仮説に対する実質的な支持を示しています:

Methods by Weight
図5:各方法の異なる重み値におけるパフォーマンストレンド。方法2と3はしばしば方法1を上回り、より高い重み値でより優雅な劣化を示します。

層ごとの方法の利点は、設定2(全体的により効果的な設定)でさらに顕著で、83.3%の成功率を示しています。このトレンドは、特に高いLLMの重み値(0.5と0.6)で顕著であり、方法2と3は両方のデータセットにわたって一貫して方法1を上回っています。

データは仮説2を支持する3つの重要なパターンを明らかにしています:

  1. 方法2と3は、より高い重み値(0.6)でより良い回復力を示し、方法1よりも優雅に劣化します。

  2. 設定2では、方法3(対数線形層ごと)が最高の全体的なパフォーマンスを達成し、深層でLLMの影響をより緩やかに導入することが最適であることを示唆しています。

  3. 層ごとのアプローチは一般的にMath-Vista miniでより良いパフォーマンスを示し、より多くのLLMの影響を取り入れる際に視覚的推論能力をより良く保持することを示唆しています。

最適な重みバランス

ほとんどの方法と設定で、重み値0.4(60% VLM + 40% LLM影響)が最良の結果を生み出します。最良の全体的な構成は設定2、方法3、重み0.4であり、以下を達成します:

  • MATH-Vで25.46%(ベースラインより1.51ポイント上)
  • Math-Vista miniで69.8%(ベースラインの70.9%に最も近い)

これは、LLMの能力を選択的に取り入れながらVLMの影響を強く維持することが、マルチモーダル推論タスクに最適なパフォーマンスをもたらすことを確認しています。

考察

私たちの発見は、VLMとLLMの間のインテリジェントで選択的なパラメータマージングが、素朴なマージアプローチよりも優れたマルチモーダルモデルを生成できることを示しています。重要な洞察は以下の通りです:

  1. 埋め込みが重要: VLMの埋め込みテンソルを保持することは、モデルが視覚情報を効果的に処理する能力を維持するために重要です。

  2. コンポーネント固有のマージング:すべてのモデルコンポーネントがフュージョンから同じように利益を得るわけではありません。self-attentionメカニズムはマージングに最も有望な候補と思われます。

  3. 層依存フュージョン:最適なマージング戦略は層によって異なり、初期層はVLMの影響が強いほど利益を得、深層はより多くのLLMの貢献を受け入れることができます。

  4. マージングの適度さ:最も優れたパフォーマンスの構成でも、最適なマルチモーダルパフォーマンスのためにはVLMのパラメータがより大きな影響(約60%)を維持すべきです。

  5. タスク依存効果:2つのデータセットは、マージング戦略に対して異なる感度パターンを示し、視覚的推論(Math-Vista mini)は数学的推論(MATH-V)よりも一貫して設定2と方法2/3から利益を得ることを示唆しています。

結論

VLMとLLMのフュージョンの探求を通じて学んだことは、かなり目からウロコの経験でした。モデルを一緒にぶつけるのは力技ではなく、繊細さが重要だということがわかりました。私たちが見つけた最も成功したアプローチは、VLMのオリジナルの埋め込み層を無傷のまま保ちながら、self-attentionメカニズムのみを選択的にマージすることでした。そして本当の魔法は、ネットワークの深さ全体で異なるマージ戦略を適用するときに起こります。

Discussion