画像から文章を生成する技術はどうやって動いている?
画像を見て、それを言葉で表現する。この行為は人間にとっては自然なことですが、コンピュータがこれをやるにはなかなか高度なタスクです。近年、BLIP (Bootstrapping Language-Image Pretraining)やinstructBLIPなどのモデルによって、「画像キャプション生成」や「視覚質問応答(VQA)」といったVision Language Model (VLM) の技術が急速に発展してきています。
これらのモデルがどうやって「画像を言語に変換」しているのか見ていきます。
画像エンコーダと言語エンコーダ
Vision Langage Modelの近年の発展において基礎となっているモデルはCLIP (Constrastive Language-Image Pre-traing)です。CLIPは2021年2月にOpenAIによって公開された、言語と画像の特徴を理解するマルチモーダルモデルです。2025年現在では様々な派生モデルが提案されており、その一部はopen_clipのレポジトリにて公開されています。CLIPを構成する2つのエンコーダが画像エンコーダと言語エンコーダで、VLMは画像エンコーダを使用します。
画像エンコーダ(ViTベース)
入力画像をパッチに分割してそれぞれをベクトル化します。画像の意味的な特徴を抽出します。
言語デコーダ(GPTのようなTransformer)
エンコーダから得られた特徴ベクトルをもとに、自然な文章を1語ずつ生成します。
事前学習
BLIPやInstructBLIPでは、webから収集された画像 + キャプションのペアを使ってモデルを事前学習します。この段階では以下のようなタスクを通じて視覚と言語の対応関係を学びます。
- 画像→Image Captioning
- 画像と文章の一致判定 (Image-Text Matching)
- 画像の内容に基づく質問応答
それぞれオープンなデータセットがあります。
InstructBLIP
InstructBLIPは2023年にSalesforceより発表されたモデルです。これまでのVLMと異なり、画像に加えて言語による「プロンプト指示」も可能なモデルです。2025年現在ではChatGPTやGeminiを使っていれば当たり前に感じるかもしれませんが、オープンなモデルで開発されたという点で当時はインパクトがありました。
終わりに
画像から文章を生成する技術は、単なる「キャプション」生成を超えて、人間の言語理解と視覚認識をつなぐブリッジになりつつあります。今後はマルチモーダルAIの中核技術として今回挙げたBLIPやここでは紹介していないLLaVAを基に発展していくと考えております。
Discussion