🐈

LLaVAとは?マルチモーダルAIの今を支えるOSS VLM

2025/05/21に公開

LLM

VLM

tech

 はじめにOpenAIのGPT-4oに代表されるマルチモーダルモデルの進化が止まりません。今日もGoogleがImagen4やVeo3を発表し、動画生成を音声つきで生成できるようになったのは衝撃的です。LLMの勃興により生成AIの進化に沿ってテキストだけでなく、画像や音声などのマルチモーダルデータを理解できるAIが注目を浴びています。中でも研究・実装の観点から注目しているモデルがLLaVA (Large Language and Vision Assistant)です。

LLaVAは、視覚と言語を統合したVLMの１つであり、オープンソースで開発・提要されている点が特徴です。本記事ではLLaVAのアーキテクチャや学習方法、活用事例について解説します。

 LLaVAとはLLaVAは、Metaが開発したLLaMA系列の言語モデルViccunaとOpenAIが開発したCLIPの視覚エンコーダを組み合わせたマルチモーダルモデルです。
特徴としては、以下の点が挙げられます。
画像と指示文を入力して、自然言語で応答
事前学習ずみのCLIPとViccunaを活用することで、それらのパラメータを凍結し、画像特徴量からデコードする際の行列のみを事前学習の学習対象としています
事前学習後にE2Eでファインチューニングを行い、インストラクションチューニングを実施します

 アーキテクチャの概要LLaVAは以下の3つの構成要素から成り立っています

CLIPのImage Encoder
Projection Layer

CLIPの画像特徴をLLaMAのトークン埋め込みと統一するための線形変換
Language Model
!CLIPとVicunaの層は基本的に凍結され、学習されるのはProjection Layerです。

 学習プロセスLLaVAでは2段階の学習を行います
事前学習
画像 + 質問 + 回答の組を既存データセットから生成し学習させます。
CC-595Kデータセット
Vision Instruciton Tuning
実際のVQAやInstrucitonデータでチューニング
独自で作成したLLaVA-Instruct-158Kデータセットを3epoch

 性能評価と結果ScienceQAでの評価では、GPT-4との組み合わせにより**92.53%**の正解率を達成し、最先端の性能を記録しました
合成されたマルチモーダルデータセット上ではGPT-4と比較して**85.1%**の相対スコアを達成しました
他のマルチモーダルモデル(BLIP-2やOpenFlamingo)と比較しても、LLaVAは**29%~48%**の性能向上を示しました。

 限界と今後の課題LLaVAはベンチマーク上で高い性能を示していますが、苦手な点が指摘されています
複雑なレイアウトの理解は苦手

最近のモデルでは、セグメンテーションデータを活用して、文字の位置や物体の位置も推定するように学習されているので、LLaVAの段階ではそのデータセットがまだ未整備だったことが伺えます
高解像度加増の処理や複数画像の同時処理には対応していない

これは現在は商用のVLMであればどのモデルでも対応していますね
視覚的な推論能力はGPT-4VやGeminiには及ばない

Geminiはモデルアーキを刷新して開発されているが、データ自体はweb上にあるデータをかき集めて(脳筋)データセットを構築しているとのことなので、オープンソースでもデータの観点では勝てる余地はあるのかもしれません

 まとめ今回は、オープンソースのVLMであるLLaVAについてまとめました。

LLaVAのVLMを学習するためのデータセットは、日本語VLMでも活用されており、例えばSB Intuitionsのテックブログを見ると、LLaVAの学習方法が生かされているように見えます。

今後の日本語VLMモデルの開発に注目です。

はじめに

LLaVAとは

アーキテクチャの概要

学習プロセス

性能評価と結果

限界と今後の課題

まとめ

Discussion