Open7
Modality Plug-and-Play: Elastic Modality Adaptation in Multimodal LLMs for Embodied AI

- LLMをマルチモーダル化するための主な方法は、エンコーダと LLM の両方をフリーズし、その間に挿入された投影モジュールのみをトレーニングする方法
- 入力層に接続されているため、逆伝播のコストがかかる
- 初期の LLM ブロックのテキスト表現は表面的すぎる
- LLM の中間層への接続
- 恣意的な接続
- 実行時に固定
- 適応性が低い
- 推論プロセスへの影響が大きく、難しさがある

- 最後のLLMブロックを使用する方法を提案
- 接続するLLMブロック数を精度とトレーニングコストに応じて変えられる
- デコーダのみのLLMに適用
- LLMのソースコードを変更せずに適用可能
- LLM ブロック内の KV セットに挿入されるマルチモーダル トークンの適応的な重み付けを可能にする

mPnP-LLMの設計
Choices of unimodal encoders
- ViTやBERTが使える
- トランスフォーマー型
Feature representation
- トランスフォーマー型
- 複数の中間層から[CLS]トークンをそれぞれ取り出して使用
- [CLS]トークンが使用できない場合は特徴表現に平均プールされたトークンを使用
以下のモジュールを追加する
- Key & Value Aligners
- Trainable Latent Connection

Key & Value Aligners
- ユニモーダル エンコーダーからのマルチモーダル トークンを KV ペアに射影
- GELUで非線形性を導入
Aligner(x) = GELU(xW1 + b1)W2 + b2,

Trainable Latent Connection
- Alignersから得られたK,Vは、LLMブロックごとに重みづけされる
- 重み
αj = sigmoid(wj/T )