MIRU 2025 参加レポート
こんにちは、株式会社SCIEN CTOの大山です。
2025年7月29日(火)〜8月1日(金)にかけて京都で開催された画像の認識・理解シンポジウムMIRU2025に参加しました。
弊社からは機械学習エンジニアのメンバー含め3名が参加いたしました。
この記事ではMIRU2025の全体的な様子や、私の興味トピックにおける聴講内容を主に報告させていただきます。
看板で写真を撮り損ねたので、交流会の看板の写真になります。
画像の認識・理解シンポジウム(MIRU)とは?
画像の認識・理解シンポジウム(MIRU)は、画像の認識と理解技術に関する国内最大規模の会議です。大学や産業界を問わず、研究者・技術者・学生が一堂に会し、基礎理論から実世界応用まで幅広いテーマについて最新の研究成果を発表・討論する場として位置づけられています。毎年、コンピュータビジョンやパターン認識、関連する周辺技術に関わる多彩なセッション(チュートリアル、口頭発表、ポスターセッション、特別講演など)が企画され、約1,000名を超える参加者が集います
ポスターセッションの様子
全体感
全体として幾つかの分野に技術トレンドの変容や、傾向がみられました。
3D分野においては3D Gaussian SplattingがNeRFを超えて存在感を増している感覚を得ました。軽量性や高い視覚忠実度からの応用の幅広さや技術の開拓性から、このような傾向があると感じております。また基盤モデルの領域になると様々なドメインにVLM(MLLM)を活用していくような応用研究が時代の潮流もあり増えているという所感を得ました。具体的な使用方法として、シンプルにVLMの出力を他の認識等に活用するというものから、中間層を特徴表現としてうまく活用すると言ったものまで非常に幅広く研究がなされておりました。
またVLMやLLMのと言った基盤モデル周りのベンチマークやデータセットに関する研究が複数ドメインで出ていた印象です。
Retrieval関連の分野から数件ご紹介
今回は私の専門分野でもあるRetrieval関連の分野から聴講させていただいた研究をご紹介させていただきます。
昨今の潮流として、埋め込みを用いたHolisticなマッチングが多く行われている中で、よりfine-grainedな情報や状況をいかに表現するかという論点がRetrieval領域の課題の一つとして存在します。その中で自分自身注目しているものとして、グラフ表現活用してより精緻な情報を理解するという手法があり、そのようなモチベーションから、今回はRetrievalにグラフを活用する手法を用いた研究やImage Retrievalを場所特定に活用したVPR、大規模基盤モデルを活用したものまで聴講させていただきましたので、その概要をご紹介させていただきます。
CQVPR: Landmark-aware Contextual Queries for Visual Place Recognition
VPRはVisual Place Recognitionといい、Image Retrieval技術を応用してカメラで得たクエリ画像と、あらかじめ登録したデータベース画像の特徴を比較し、最も類似する画像を検索することで撮影地点やシーンを認識する手法です。最近のVPRでは、都市空間にあふれる似た外観の建物(ランドマーク)をただ検出するだけではなく、その周辺環境(木々や道路など)の文脈情報も取り込むことが求められています。そこでこちらのCQVPRでは、Transformerベースの学習可能な「文脈クエリ」を導入し、各クエリが捉えたヒートマップ(注目領域)をピクセルレベル特徴と融合。これにより、ランドマークとその周囲を同時に捉えたグローバル/ローカル記述子を生成し、より堅牢な場所認識を実現しています。
Pitts30kではR@1=93.3%、Tokyo 24/7ではR@1=94.0%を達成し、従来最高のSelaVPRを上回りました。
出典:Dongyue Li, Daisuke Deguchi, Hiroshi Murase, “CQVPR: Landmark-aware Contextual Queries for Visual Place Recognition,” arXiv, arXiv:2503.08170 [cs.CV], 2025.
Graph-based Temporal Reasoning for Multi-Camera Video Moment Retrieval
最近の監視映像検索では、「人が店に入って、バッグを持ち替え、その後別の人物にバッグを奪われる」といった複数ステップを含むクエリに対応するのが難題でした。そこで本研究では、映像側を「物体や人のノード」と「それらの関係」を表すシーングラフで構造化し、クエリ側を「主体–関係–客体」といった関係に分解して時間軸に沿って整理する仕組みを提案しています。映像とテキストの両方を同様に形式のグラフ構造にマッピングし、マッチングをするということで、まさにfine-grainedな情報を取り扱うことができるということで監視映像検索の領域では非常に性能への寄与を期待できる手法だと感じました。
実験では実際に生成されたグラフによるマッチングを用いた検索ではGround Truthのグラフ構造を用いた検索には精度としては届かなかったとのお話だったのですが、結果をさらに深ぼっていくと何か面白い示唆が得られるかもしれないと非常に興味深く感じました。
大規模視覚言語モデルを用いた条件付き画像埋め込み
本研究では,大規模視覚言語モデルを活用し,「Describe the image in one word regarding {condition}:」というプロンプトを画像とともに入力するだけで,条件付き画像埋め込みを推論のみで得るDIORフレームワークを提案しています。Transformerの最終層からプロンプト末尾トークンの隠れ状態を取り出すことで,追加学習不要かつ汎用的に「車種」「色」「背景」「鳥の種類」「衣服のカテゴリ・柄・生地・フィット感」「映画ポスターのジャンル・制作国」など多様な条件に沿った埋め込み表現を生成できます。
実験は5つのデータセット(Synthetic Cars, Cars196, CUB200, DeepFashion, Movie Poster)で条件付き類似画像検索タスクを評価し,複数手法で従来手法を上回る性能を達成しました。条件を一語で指定するプロンプト設計と,隠れ層から直接埋め込みを抽出する手法が,高品質な条件付き検索の一つの方法となることが確認されました。
この研究では、追加の学習なしで、入力画像に対して言語での条件付き埋め込みを獲得するという点で、アイデアとしても非常に斬新で面白く、関連領域において非常に応用の幅が広い研究だと感じました。
Vision Language Modelを用いたEコマースプラットフォームにおける画像推薦の性能改善
この研究では、Mercariの「見た目が近い商品」レコメンドに、従来のMobileNetなどのCNNではなく、画像と言葉の対象学習で強力な表現を学んだSigLIPというモデルを活用することを提案しています。商品画像と商品名のペアを対照学習でファインチューニングしたモデルを実際にレコメンドのモデルとして用いることで、オフライン実験ではnDCGスコアにてベースラインから約9%の改善、実運用環境でのオンラインA/Bテストではクリック率が50%、購入転換率が14%向上が見られたとのことです。
実際のサービス規模でオンライン検証を行い実証している部分が応用のための評価として非常に素晴らしいと感じましたし、言語との対照学習によりセマンティック理解を強めることにより、CNNでは取りこぼしがちな色や形の微細な特徴やカテゴリをまたがる類似性まで捉えられる点が特に印象的でした。さらにPCAによる次元削減で検索速度も確保しており、Eコマースでの実用性を強く意識した設計になっており、非常に興味深いと感じました。
まとめ
今回のMIRUでは、コンピュータビジョン全体として昨今革新的に発展している基盤モデルをいかに活用していくかという点や、その他にもさまざまな技術ドメインでの傾向を掴むことができました。
また、特別講演やさまざまな研究発表を聴講し、研究の評価結果として定量的な数字を見るだけでなく定性的な絵を見ることでさまざまな示唆を得ることができ、コンピュータビジョン領域における研究の面白みを再度感じられるということに気づくことができました!
最後に、弊社では最先端のコンピュータ技術やマルチモーダル技術を社会還元していくための仲間を募集しております。
ぜひご興味のある方は下記リンクからご応募ください!!
Discussion