🐈

LLaVAとは?マルチモーダルAIの今を支えるOSS VLM

に公開

はじめに

OpenAIのGPT-4oに代表されるマルチモーダルモデルの進化が止まりません。今日もGoogleがImagen4やVeo3を発表し、動画生成を音声つきで生成できるようになったのは衝撃的です。LLMの勃興により生成AIの進化に沿ってテキストだけでなく、画像や音声などのマルチモーダルデータを理解できるAIが注目を浴びています。中でも研究・実装の観点から注目しているモデルがLLaVA (Large Language and Vision Assistant)です。
LLaVAは、視覚と言語を統合したVLMの1つであり、オープンソースで開発・提要されている点が特徴です。本記事ではLLaVAのアーキテクチャや学習方法、活用事例について解説します。

LLaVAとは

LLaVAは、Metaが開発したLLaMA系列の言語モデルViccunaとOpenAIが開発したCLIPの視覚エンコーダを組み合わせたマルチモーダルモデルです。

特徴としては、以下の点が挙げられます。

  • 画像と指示文を入力して、自然言語で応答
  • 事前学習ずみのCLIPとViccunaを活用することで、それらのパラメータを凍結し、画像特徴量からデコードする際の行列のみを事前学習の学習対象としています
  • 事前学習後にE2Eでファインチューニングを行い、インストラクションチューニングを実施します

アーキテクチャの概要

LLaVAは以下の3つの構成要素から成り立っています

  1. CLIPのImage Encoder
  2. Projection Layer
    CLIPの画像特徴をLLaMAのトークン埋め込みと統一するための線形変換
  3. Language Model

学習プロセス

LLaVAでは2段階の学習を行います

  1. 事前学習
  1. Vision Instruciton Tuning
  • 実際のVQAやInstrucitonデータでチューニング
  • 独自で作成したLLaVA-Instruct-158Kデータセットを3epoch

性能評価と結果

  • ScienceQAでの評価では、GPT-4との組み合わせにより**92.53%**の正解率を達成し、最先端の性能を記録しました
  • 合成されたマルチモーダルデータセット上ではGPT-4と比較して**85.1%**の相対スコアを達成しました
  • 他のマルチモーダルモデル(BLIP-2やOpenFlamingo)と比較しても、LLaVAは**29%~48%**の性能向上を示しました。

限界と今後の課題

LLaVAはベンチマーク上で高い性能を示していますが、苦手な点が指摘されています

  • 複雑なレイアウトの理解は苦手
    最近のモデルでは、セグメンテーションデータを活用して、文字の位置や物体の位置も推定するように学習されているので、LLaVAの段階ではそのデータセットがまだ未整備だったことが伺えます
  • 高解像度加増の処理や複数画像の同時処理には対応していない
    これは現在は商用のVLMであればどのモデルでも対応していますね
  • 視覚的な推論能力はGPT-4VやGeminiには及ばない
    Geminiはモデルアーキを刷新して開発されているが、データ自体はweb上にあるデータをかき集めて(脳筋)データセットを構築しているとのことなので、オープンソースでもデータの観点では勝てる余地はあるのかもしれません

まとめ

今回は、オープンソースのVLMであるLLaVAについてまとめました。
LLaVAのVLMを学習するためのデータセットは、日本語VLMでも活用されており、例えばSB Intuitionsのテックブログを見ると、LLaVAの学習方法が生かされているように見えます。
今後の日本語VLMモデルの開発に注目です。

Discussion