うさぎでもわかる日本発の大規模視覚言語モデル「NABLA-VL」
はじめに:NABLA-VLとは
みなさん、こんにちは!最近、AIの世界ではテキストだけでなく画像や動画も理解できる「視覚言語モデル(VLM: Vision-Language Model)」が注目を集めています。ぴょんぴょん!今回は、そんな中で日本から生まれた大規模視覚言語モデル「NABLA-VL」についてご紹介します。
NABLASの紹介
NABLA-VLを開発したのは、東京大学発のスタートアップ企業「NABLAS株式会社」です。2017年3月に設立されたNABLASは、「AI総合研究所」として人材育成・研究開発・コンサルティングなど幅広いAI関連サービスを提供しています。
社名の「NABLAS」は、深層学習の最も基本的な学習則である「勾配降下法」における勾配∇(ナブラ)に由来しています。「世界を一つの超多変量空間として捉え、より良い未来を創造するためには、どのような技術やサービスを創り上げるべきか、探索・創造し続ける」という意志が込められているそうです。
GENIACプロジェクトについて
NABLA-VLは、経済産業省および国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が協力して実施する「GENIAC(Generative AI Accelerator Challenge)」プロジェクトの第2期に採択され、開発が進められています。
このGENIACプロジェクトは、日本の生成AIの開発力強化を目的としたもので、「ポスト5G情報通信システム基盤強化研究開発事業」の一環として行われています。採択された企業は、計算資源の提供支援、データ・生成AIの利活用に向けた実証の支援、マッチングイベント等の開催や、グローバルテック企業との連携支援などを受けることができます。
NABLA-VLの開発背景
NABLASが開発するNABLA-VLは、2つの大きな目標を持っています。
- 社内で大規模モデル開発を継続して行うための土台を整え、国産の優れた汎用的な大規模モデルを開発すること
- 特定の領域(今回は日本の「流行食」)に特化したモデルを開発し、独占的に開発されている大規模モデルの性能を局所的に上回ることを示すこと
特に注目すべきは、日本語に対応した視覚言語モデルであることと、複数画像や動画の入力に対応している点です。
NABLA-VLの技術的特徴
NABLA-VLのアーキテクチャは、ByteDanceなどが開発したLLaVA-OneVisionを参考にしていますが、いくつかの重要な改良が施されています。
アーキテクチャの特徴
NABLA-VLは基本的に、画像を理解するための「画像エンコーダ」と、言語を理解・生成するための「大規模言語モデル(LLM)」の2つの主要コンポーネントから構成されています。
画像エンコーダには「NaViT」を採用し、LLMには「Qwen2.5-7B-Instruct」を使用しています。NaViTを使用することで、画像をリサイズせずにそのままの比率で入力できるようになりました。
また、LLMには「レジスタ」と呼ばれる学習可能なトークンを追加する工夫も施されています。
複数画像・動画対応の仕組み
NABLA-VLの特徴の一つが、複数画像や動画を同時に理解できる能力です。LLaVA-OneVisionでは、複数画像や動画の各フレームをタイルごとに固定数の視覚トークンに変換していましたが、この方法ではタイルが大きくなる場合に画像エンコーダでメモリ不足になる問題がありました。
NABLA-VLではこの問題を解決するために、複数画像や動画のフレームを格子状に配置して一枚の画像として扱う手法を開発しました。また、各画像やフレームが何番目に入力されたものかを示すために、左上に連番を割り振る工夫も施されています。
日本語対応の工夫
NABLA-VLは日本語での質問応答性能を高めるために、学習データセットに工夫を凝らしています。ステージ1とステージ1.5で使用される画像キャプション・OCR・テキストのみのデータセットに、それぞれ日本語版のデータセットを追加で使用しています。
ステージ3の指示学習でも同様に、利用できるものについては日本語版のデータセットを積極的に活用しています。また、InternVL2.5の技術報告書を参考に、新規のデータセットも追加されています。
ベンチマークでの性能
NABLASの発表によると、NABLA-VLは同程度の学習データセット上で学習したLLaVA-OneVisionと比較して、多くのベンチマークでスコアが向上しています。特に日本語での質問応答性能が求められる「JMMMU」では、日本語の学習データセットを追加したことで2.3ポイント程度のスコア向上が見られたとのことです。
NABLA-VL.foodについて
NABLA-VLの開発と並行して、NABLASは「NABLA-VL.food」という日本の「流行食」に特化した大規模視覚言語モデルも開発しています。
日本の「流行食」に特化したモデルの狙い
NABLASがこの領域を選んだ理由は、食が場所や文化的な違いをはじめ、時代的背景に大きく左右されることから、特化モデルと汎用モデルの性能の差が出やすい可能性が高いと考えたためです。また、日本の産業に対しても取り組む意義が大きいテーマの一つとして選ばれました。
食品・流通小売領域での活用事例
NABLA-VL.foodは、食品・流通小売領域に強い生成AI技術の開発と社会実装を目的としています。例えば以下のような活用が考えられます:
- 食品領域の商品開発支援
- マーケティング戦略の立案・実行支援
- トレンド分析と予測
- 画像からのレシピ提案
- 在庫管理や需要予測の効率化
現在NABLASでは、食品や小売に対してSNSからトレンドを自動取得するAIエージェントの開発も進めており、今後さらに用途が広がることが期待されています。
汎用モデルと特化モデルの違い
一般的に、汎用モデルは幅広いタスクに対して一定の性能を発揮できる反面、特定の領域での専門性は限られます。一方、特化モデルは特定の領域に特化することで、その領域内では汎用モデルよりも高い性能を発揮できる可能性があります。
NABLA-VL.foodは、日本の食品という特定領域に特化することで、汎用的な視覚言語モデルよりも高い精度と応用性を実現しようとしています。特に日本独自の食文化や流行に対する理解は、海外の大規模モデルでは対応が難しい領域であり、NABLA-VL.foodの強みになると考えられます。
今後の展望
MoEモデルへの発展
NABLASの発表によると、今後はより大きいモデルの開発を行ったあと、MoE(Mixture of Experts)モデルの開発に取り組む予定とのことです。MoEは複数の「専門家」モデルを組み合わせることで、モデル全体の効率と性能を高める手法です。
この取り組みにより、食品領域への特化性をさらに高めつつも、計算効率を維持したモデルの開発が期待されます。
オープンソース化の動き
NABLASは、結果として得られたモデルやデータセットをより詳細な技術報告書とともに公開する予定としています。これは日本の視覚言語モデル研究コミュニティの発展に貢献する可能性があります。
GitHubリポジトリ(https://github.com/nablas-inc/NABLA-VL)も公開されており、今後技術的な詳細や実装コードなどが順次公開されていくことが期待されます。
他領域への応用可能性
NABLASは、現在開発中の特定の業界や領域特化の高レベルな課題を解決するアプローチを、食品や小売だけでなく、アパレルや広告、不動産、製造業などの分野にも拡張していきたいと考えています。
これは、NABLA-VLで得られた知見とアーキテクチャをベースに、さまざまな産業分野に特化したモデルを開発できる可能性を示しています。
まとめ
日本発の大規模視覚言語モデル「NABLA-VL」は、複数画像や動画への対応、日本語に強いデータセット構成など、いくつかの独自の特徴を持っています。特に「NABLA-VL.food」のような特定領域に特化したモデル開発のアプローチは、今後のAI開発における日本の強みを生かす方向性を示しているといえるでしょう。
東京大学発のスタートアップであるNABLAS株式会社が、経済産業省やNEDOの支援を受けて開発を進めている本プロジェクトは、日本のAI研究開発の新たな可能性を開くものです。今後の開発進展と活用事例の広がりに注目していきたいですね。ぴょんぴょん!
NABLA-VLについての最新情報や詳細は、NABLASの公式サイトやGitHubリポジトリでチェックしてみてください:
Discussion