💭
Visual Prompting入門：数クリックで物体検出モデルを構築する

Tatsuya Takimoto
2025/10/16に公開
 はじめに近年、AI技術は目覚ましい進化を遂げていますが、特にコンピュータビジョンの分野で「ビジュアルプロンプティング（Visual Prompting）」という革新的なアプローチが注目を集めています。この技術を用いれば、従来数週間単位の作業と大量のラベル付きデータ、そしてAIの専門知識が必要だった画像の物体検出(セグメンテーション)モデルの構築が、わずか数分、数クリックで実現可能になります。
本記事では、この技術を誰でも直感的に利用できる「Visual Prompt Lab (VP Lab)」というサービスをもとにVisual Promptingについて紹介します。

 Visual Promptingとは？Visual Promptingは、ユーザーが画像に対して直感的な「プロンプト（指示）」を与えることで、AIがその意図を汲み取り、対象物を自動で認識・分割（セグメンテーション）する技術です。
従来のテキストベースの指示では伝えきれなかった「画像の"ここ"にある、"この"部分」といった直感的で詳細なニュアンスを、AIに正確に理解させることができます。これにより、モデルはユーザーが関心を持つ対象をピクセルレベルで正確に認識し、タスクの精度を飛躍的に向上させます。

Visual Promptingの例

 既存の物体検出モデルとの違い従来の物体検出や画像セグメンテーションのモデル開発には、多くの課題がありました。

大量の教師データが必要

モデルを学習させるために、専門家が手作業でアノテーション（タグ付け）した大量の画像データが必要でした。

特定タスクへの特化

一度学習させたモデルは、特定の物体（例：犬、猫）しか検出できず、新しい対象を認識させるには再学習が必要でした。
これに対し、Visual Promptingは「Zero-shot」または「Few-shot」での対応が可能です。つまり、事前の大規模な学習なしに、ユーザーがその場で与えた簡単な指示だけで、AIが未知の物体を即座に認識・セグメンテーションできるようになります。

 Visual Prompting Labとは？Visual Prompting Lab（VP Lab）は、IBM Researchが開発したVisual Promptingを実行できるWebサービスです。ユーザーは数枚の画像をアップロードし、探したい対象物を指定するだけで、その対象物を検出できるAIモデルを構築することができます。
VP Labの利用フローは非常にシンプルかつ直感的です。

画像のアップロード: ユーザーは分析したい数枚の画像をウェブサービスにアップロードします。

プロンプトの入力: 画像の中から見つけたい対象物を、クリックしたり、簡単な線で囲んだりしてAIに指示します。

モデルによるセグメンテーション: AIは与えられたプロンプトを基に、対象物全体を即座にセグメンテーションします。ユーザーはその結果を確認し、必要であれば修正指示を追加します。

AIモデルの構築と推論: ユーザーが結果を承認すると、VP Labは入力されたプロンプトを学習し、数分以内にその物体を検出するための専用AIモデルを構築します。このモデルを使えば、他の画像からも同様の物体を自動で検出できるようになります。
このプロセス全体がわずか数分で完了するため、これまで数週間から数ヶ月かかっていたモデル開発のサイクルが劇的に短縮されます。
VP Labについての詳細はこちらの動画をご確認ください。
https://youtu.be/9hfU3KquDc8

 VP Labの使い方では、実際にVP Labを使ってみたいと思います。
まずは、分析対象となる画像をアップロードします。今回は、VP Labにデフォルトで搭載されているコンクリートの変状データセットのサンプルを使用します。

次に、セグメンテーションにおけるラベルを用意します。今回は、「Rusted bars(錆びた鉄筋)」、「Spalling(剥離)」、「Brown precipitation(茶色の析出物)」の3つを用意します。

1つ以上の画像に対して、プロンプトを付与します。プロンプトを付与する方法は「自動」、「フリーハンド」、「矩形」の3種類あります。「自動」では、Meta社が公開しているSAM(Segmentation Anything Model)を用いることで、クリックした箇所の対象物と思われる範囲を自動でアノテーションすることが可能です。

最後に、画面上部の「RUN」ボタンをクリックすると参照画像以外のアップロードした画像に対して、同様の物体を自動で検出することができます。

 まとめIBMのVisual Prompt Labは、AIによる画像解析の専門知識がないユーザーでも、まるで専門家のように高精度なカスタムAIモデルを迅速に構築できる、まさに「AIの民主化」を体現する画期的なサービスです。
製造業における品質管理やインフラの監視、医療画像の解析など、データが限られ、かつ日々新しい分析対象が生まれるような専門領域で特にその真価を発揮します。 Visual Prompting技術は、コンピュータビジョンをより身近で強力なツールへと変え、ビジネスの現場における課題解決を加速させる大きな可能性を秘めていると感じます。興味のある方は、是非一度VP Labを使ってみてください。

 参考https://research.ibm.com/projects/visual-prompting
https://arxiv.org/html/2409.15310v1