🐈
LLaVAとは?マルチモーダルAIの今を支えるOSS VLM
はじめに
OpenAIのGPT-4oに代表されるマルチモーダルモデルの進化が止まりません。今日もGoogleがImagen4やVeo3を発表し、動画生成を音声つきで生成できるようになったのは衝撃的です。LLMの勃興により生成AIの進化に沿ってテキストだけでなく、画像や音声などのマルチモーダルデータを理解できるAIが注目を浴びています。中でも研究・実装の観点から注目しているモデルがLLaVA (Large Language and Vision Assistant)です。
LLaVAは、視覚と言語を統合したVLMの1つであり、オープンソースで開発・提要されている点が特徴です。本記事ではLLaVAのアーキテクチャや学習方法、活用事例について解説します。
LLaVAとは
LLaVAは、Metaが開発したLLaMA系列の言語モデルViccunaとOpenAIが開発したCLIPの視覚エンコーダを組み合わせたマルチモーダルモデルです。
特徴としては、以下の点が挙げられます。
- 画像と指示文を入力して、自然言語で応答
- 事前学習ずみのCLIPとViccunaを活用することで、それらのパラメータを凍結し、画像特徴量からデコードする際の行列のみを事前学習の学習対象としています
- 事前学習後にE2Eでファインチューニングを行い、インストラクションチューニングを実施します
アーキテクチャの概要
LLaVAは以下の3つの構成要素から成り立っています
- CLIPのImage Encoder
- Projection Layer
CLIPの画像特徴をLLaMAのトークン埋め込みと統一するための線形変換 - Language Model
学習プロセス
LLaVAでは2段階の学習を行います
- 事前学習
- 画像 + 質問 + 回答の組を既存データセットから生成し学習させます。
- CC-595Kデータセット
- Vision Instruciton Tuning
- 実際のVQAやInstrucitonデータでチューニング
- 独自で作成したLLaVA-Instruct-158Kデータセットを3epoch
性能評価と結果
- ScienceQAでの評価では、GPT-4との組み合わせにより**92.53%**の正解率を達成し、最先端の性能を記録しました
- 合成されたマルチモーダルデータセット上ではGPT-4と比較して**85.1%**の相対スコアを達成しました
- 他のマルチモーダルモデル(BLIP-2やOpenFlamingo)と比較しても、LLaVAは**29%~48%**の性能向上を示しました。
限界と今後の課題
LLaVAはベンチマーク上で高い性能を示していますが、苦手な点が指摘されています
- 複雑なレイアウトの理解は苦手
最近のモデルでは、セグメンテーションデータを活用して、文字の位置や物体の位置も推定するように学習されているので、LLaVAの段階ではそのデータセットがまだ未整備だったことが伺えます - 高解像度加増の処理や複数画像の同時処理には対応していない
これは現在は商用のVLMであればどのモデルでも対応していますね - 視覚的な推論能力はGPT-4VやGeminiには及ばない
Geminiはモデルアーキを刷新して開発されているが、データ自体はweb上にあるデータをかき集めて(脳筋)データセットを構築しているとのことなので、オープンソースでもデータの観点では勝てる余地はあるのかもしれません
まとめ
今回は、オープンソースのVLMであるLLaVAについてまとめました。
LLaVAのVLMを学習するためのデータセットは、日本語VLMでも活用されており、例えばSB Intuitionsのテックブログを見ると、LLaVAの学習方法が生かされているように見えます。
今後の日本語VLMモデルの開発に注目です。
Discussion