Open7

Modality Plug-and-Play: Elastic Modality Adaptation in Multimodal LLMs for Embodied AI

hibikazehibikaze
  • LLMをマルチモーダル化するための主な方法は、エンコーダと LLM の両方をフリーズし、その間に挿入された投影モジュールのみをトレーニングする方法
    • 入力層に接続されているため、逆伝播のコストがかかる
    • 初期の LLM ブロックのテキスト表現は表面的すぎる
  • LLM の中間層への接続
    • 恣意的な接続
    • 実行時に固定
      • 適応性が低い
    • 推論プロセスへの影響が大きく、難しさがある
hibikazehibikaze
  • 最後のLLMブロックを使用する方法を提案
    • 接続するLLMブロック数を精度とトレーニングコストに応じて変えられる
    • デコーダのみのLLMに適用
    • LLMのソースコードを変更せずに適用可能
    • LLM ブロック内の KV セットに挿入されるマルチモーダル トークンの適応的な重み付けを可能にする
hibikazehibikaze

mPnP-LLMの設計
Choices of unimodal encoders

  • ViTやBERTが使える
    • トランスフォーマー型
      Feature representation
  • 複数の中間層から[CLS]トークンをそれぞれ取り出して使用
    • [CLS]トークンが使用できない場合は特徴表現に平均プールされたトークンを使用

以下のモジュールを追加する

  • Key & Value Aligners
  • Trainable Latent Connection
hibikazehibikaze

Key & Value Aligners

  • ユニモーダル エンコーダーからのマルチモーダル トークンを KV ペアに射影
  • GELUで非線形性を導入
Aligner(x) = GELU(xW1 + b1)W2 + b2,
hibikazehibikaze

Trainable Latent Connection

  • Alignersから得られたK,Vは、LLMブロックごとに重みづけされる
  • 重み
αj = sigmoid(wj/T )