最近の視覚モデルの特徴
最近の視覚モデルについての情報を共有します。
昨今の視覚モデル
2025年現在では視覚タスクの多くが、ビジョン言語モデル (VLM) or ビジョン基盤モデル (VFM)に代表される視覚モデルで解けるようになったのではと考えています。
下図のように、時を経るにしたがって視覚タスクの取り扱いがより汎用的かつ高性能になっているのが見て取れます。
例えば、Unified-IO 2では、1つのVFMで以下のような広範囲のタスクを解くことができます。しかも1つ1つの出来も悪くはなく、使い物にはなるレベルの推論結果が得られると思っています。また、重みは4GB程度のものから公開されていますので、ローカル端末で動作可能なサイズ感で実現されています。
したがって、視覚モデルの進化に伴って、視覚タスクへの取り組み方も変えていく必要があるのではを思います。
具体的には、迅速な検証結果が求めらるPoCシーンでは、視覚タスクを分割してルールベースアルゴリズム組むより先にとりあえず視覚モデルを使ってみたり、推論能力の汎用性が求められる製品開発シーンででは、視覚モデルのFew-shot能力を活用したりなどがあげられます。
視覚モデルが見つからない
これらのモデルを活用したいとなると、まずはモデル調査からです。
対象タスクに対応していて、いい感じのサイズで。。などの条件からモデルを探しますよね?
しかし、調査するためのキーワード選定が難しいと感じています。
そこで、ここでは視覚モデルを探すキーワードを共有させていただきます。
- VLM (Vision Language Model)
- VFM (Vision Foundation Model)
- VMM (Vision Multimodal Model)
- GM (Grounding Model)
- Image Text to Image Text
- Image Text to Text
- Open Vocabulary
個別の説明は省略しますが、このキーワードを用いることで記事冒頭の画像のStage 2,3に該当するモデルが引っかかるかと思います。
個別の視覚モデルは何が違うの?
まずそもそもの部分として、VLM/VFMの違いはなんでしょうか?
Copilotさんはこのように回答してるのですが、この引用先が私のzenn記事になってしまいます。
これは比較するのがナンセンスなのか、人気のないトピックなのか。。
もう少し実装に沿った恣意的な理解ですが、VLM/VFMを含む最近の視覚モデルの違いは以下のように整理しています。
- Transformer(Attention + MLP)という膨大な特徴量空間の中で情報の処理・格納を行う点は共通
- モデルの回答能力の違いは、モデルパラメータ数、学習データ数と学習データの質の寄与が大きい
- 対応タスクの違いは、学習時のQA設定の差やトークン化埋込方式の差が大きい
もう少し解像度高く視覚モデルの違いを調べたい方は、こちらのサイトを参照ください。VLMのアーキテクチャを違いが幅広くまとまっています。
最後に
以上で最近の視覚モデルについて情報共有を終わります。
今月はDeepSeek R1のニュースで賑わっていますが、今後はこういった推論能力の高いモデルのマルチモーダルモデル化に期待しています。
現時点ではPlantUMLなどで簡単なアーキ図の生成はできますが、将来的に複雑なアーキ図に対して画像生成や画像認識が実現可能になってくると、ますます人間のやることが無くなりそうです。例えば、FAT仕様書を投げ込んだらいい感じのメモリ配置図が自動作成できる未来、楽しみです。
Discussion