【論文5分まとめ】QATM: Quality-Aware Template Matching For Deep Learning
概要
深層学習ベースのテンプレートマッチング手法QATMを提案。事前学習済みのバックボーンにそのまま接続してテンプレートマッチングモデルにすることができたり、Image to GPSやSemantic Image Alignmentのモデルにも組み込むことができる。
速度はGPU上だと既存手法よりも高速かつ高精度、CPU上だと当然遅い。CVPR2019採択。
書誌情報
- Cheng, Jiaxin, et al. "QATM: Quality-aware template matching for deep learning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.
- https://arxiv.org/abs/1903.07254
- https://github.com/cplusx/QATM
ポイント
ここでは、単純なテンプレートマッチングタスクを想定し、QATMの考え方を整理する。
検索範囲の画像集合
ここで、尤度
QATMは、テンプレート画像に関する次元と検索画像に関する次元からなるテンソルで、以下の擬似アルゴリズムの9行目のようにテンプレート画像に関する次元でmaxをとることで、検索画像
このようなQATMは、確率的な意味づけが明確であり、さまざまな
以下はさまざまなテンプレートマッチングの手法を用いたときのスコアマップ
\alphaの選択
softmaxの温度パラメーターである
最適な
本研究では、簡単なシミュレーションを通して適切な
まず、真のペア・非ペアの特徴量のコサイン類似度に関して簡単な確率分布を想定する。そこからサンプルされたコサイン類似度
非マッチペアに対するコサイン類似度は特徴量の次元数
結果は以下のようにプロットされており、12.5 ~ 33.7あたりが、
実験
QATMは、2つの利用方法が想定されている。
- 学習済みのバックボーンに、固定の
を設定したQATMを接続することで、単純なテンプレートマッチングに使用できる\alpha - 学習対象のモデルにQATMを組み込んで、
も訓練しながら各種タスクに使用できる\alpha
それぞれ、テンプレートマッチングの実験と、Image to GPSおよびSemantic Image Alignmentに関する実験を通じて説明する。
学習済みバックボーンに接続するケース
OTBデータセットを用いたテンプレートマッチングの実験
OTBデータセットを用いて、シンプルなテンプレートマッチングのタスクをこなせるかを確認している。タスクとしては、動画中からテンプレートのパッチ画像にマッチする領域を探すというものになっている。
ここでは、モデルの学習は一切行わず、ImageNetで学習済みのVGGを特徴抽出に使用している。
下図(a)を見ると、概ね既存手法を上回っているが、これはもっとも良いAUCになった
とはいえ、先の議論で示された適切な
負例を追加した実験
OTBデータセットは、動画中の物体のトラッキングのためのデータセットであるため、テンプレート画像にマッチする領域が検索対象の画像中に必ず含まれているという前提となっている。しかし、現実的なアプリケーションでは、テンプレート画像にマッチする領域が検索対象に含まれないという状況も十分考えられる。
そこで、本研究ではテンプレートにマッチする領域が検索対象に存在しないサンプルを負例として追加した、Modified OTBデータセットを提案している。テンプレート画像を、検索対象の動画とは別の動画から作成することで負例を作っている。
先ほど最適と求められた
QATMの速度
最後に、既存手法との速度比較を行っている。QATMはeinsum
のような重たい並列計算が含まれており、CPUでは結構遅いが、GPUでの恩恵を強く受けられることが確認できる。
学習対象のモデルに組み込むケース
こちらのケースに関しては簡単な紹介にとどめる。
Image to GPSに関する実験とSemantic Image Alignmentに関する実験を行なっている。これらの実験では、学習対象のモデルの途中でQATMを使用し、
いずれの実験でも、ベースとなる既存のモデル内の「特徴マップ同士のセル単位での類似度や対応づけを計算するモジュール」をQATMに置き換えた上で訓練している。なお、QATMの
論文では、いずれの実験でも、ベースとなっているモデルの性能を上回るということを示している。
-
Xu Zhang, X Yu Felix, Sanjiv Kumar, and Shih-Fu Chang. Learning spread-out local feature descriptors. In Proceedings of the IEEE International Conference on Computer Vision, pages 4605–4613, 2017. ↩︎
Discussion