Modality Plug-and-Play: Elastic Modality Adaptation in Multimodal LLMs for Embodied AI

LLMをマルチモーダル化するための主な方法は、エンコーダと LLM の両方をフリーズし、その間に挿入された投影モジュールのみをトレーニングする方法
- 入力層に接続されているため、逆伝播のコストがかかる
- 初期の LLM ブロックのテキスト表現は表面的すぎる
LLM の中間層への接続
- 恣意的な接続
- 実行時に固定
  - 適応性が低い
- 推論プロセスへの影響が大きく、難しさがある

最後のLLMブロックを使用する方法を提案
- 接続するLLMブロック数を精度とトレーニングコストに応じて変えられる
- デコーダのみのLLMに適用
- LLMのソースコードを変更せずに適用可能
- LLM ブロック内の KV セットに挿入されるマルチモーダルトークンの適応的な重み付けを可能にする

mPnP-LLMの設計
Choices of unimodal encoders

以下のモジュールを追加する

Key & Value Aligners

Aligner(x) = GELU(xW1 + b1)W2 + b2,

Trainable Latent Connection

αj = sigmoid(wj/T )