🐶

【論文5分まとめ】QATM: Quality-Aware Template Matching For Deep Learning

2022/10/15に公開

概要

深層学習ベースのテンプレートマッチング手法QATMを提案。事前学習済みのバックボーンにそのまま接続してテンプレートマッチングモデルにすることができたり、Image to GPSやSemantic Image Alignmentのモデルにも組み込むことができる。
速度はGPU上だと既存手法よりも高速かつ高精度、CPU上だと当然遅い。CVPR2019採択。

書誌情報

Cheng, Jiaxin, et al. "QATM: Quality-aware template matching for deep learning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.
https://arxiv.org/abs/1903.07254
https://github.com/cplusx/QATM

ポイント

ここでは、単純なテンプレートマッチングタスクを想定し、QATMの考え方を整理する。

検索範囲の画像集合 $\mathbf{S}$ と検索のクエリとなるテンプレート画像集合 $\mathbf{T}$ を考える。テンプレートマッチングでは、必ずしもテンプレート画像は1枚とは限らない。また、検索対象の画像中に複数箇所で正解のマッチングがあり得る。テンプレート画像の枚数を $N$ 、正解箇所の数を $M$ と置く。

$\mathbf{S}$ のパッチや $\mathbf{T}$ のテンプレート画像から得られる特徴量 $f_s,f_t$ の間のマッチングのスコアを $\text{Quality}(s,t)$ とする。

$\text{Quality}(s,t)$ のひとつの形として、 $\operatorname{QATM}(s, t)$ を以下のように定義する。

\operatorname{QATM}(s, t)=L(t \mid s) \cdot L(s \mid t)

ここで、尤度 $L(s \mid t), L(t \mid s)$ は以下のように定義される。 $\rho$ は2つの特徴量の類似度を測る指標で、たとえばコサイン類似度が使用される。また、 $\alpha$ は温度パラメーターであり、類似度の強調を行う役割を担い、学習対象にすることもできる。

L(t \mid s)=\frac{\exp \left\{\alpha \cdot \rho\left(f_t, f_s\right)\right\}}{\sum_{t^{\prime} \in \mathbf{T}} \exp \left\{\alpha \cdot \rho\left(f_{t^{\prime}}, f_s\right)\right\}}

L(s \mid t)=\frac{\exp \left\{\alpha \cdot \rho\left(f_t, f_s\right)\right\}}{\sum_{s^{\prime} \in \mathbf{S}} \exp \left\{\alpha \cdot \rho\left(f_{t}, f_{s^{\prime}}\right)\right\}}

QATMは、テンプレート画像に関する次元と検索画像に関する次元からなるテンソルで、以下の擬似アルゴリズムの9行目のようにテンプレート画像に関する次元でmaxをとることで、検索画像 $\mathbf{S}$ のどの位置でマッチングしているかを表すマップを得ることができる。

このようなQATMは、確率的な意味づけが明確であり、さまざまな $N, M$ のシナリオに対して、以下のような理想的なスコアを考えることができる。もっとも重要なのは、Not Matching時に、ほとんどのマッチングスコアがほぼ0になることだ。

\begin{array}{c|cc|c} \hline \text { Matching Case } & L(s \mid t) & L(t \mid s) & \text { QATM }(s, t) \\ \hline 1 \text {-to-1 } & 1 & 1 & 1 \\ 1 \text {-to- } N & 1 & 1 / N & 1 / N \\ M \text {-to- } 1 & 1 / M & 1 & 1 / M \\ M \text {-to- } N & 1 / M & 1 / N & 1 / M N \\ \text { Not Matching } & 1 /\|\mathbf{S}\| & 1 /\|\mathbf{T}\| & \approx 0 \\ \hline \end{array}

以下はさまざまなテンプレートマッチングの手法を用いたときのスコアマップ $S_{map}$ であるが、QATMではマッチング対象が存在しない場合（後半4行）に、過度にスコアが大きくならず、誤検出を抑えることが確認できる。

$\alphaの選択$

softmaxの温度パラメーターである $\alpha$ は、無調整のままだと、標準的なテンプレートマッチングのアルゴリズムに精度で劣ってしまう。そのため、訓練対象のパラメーターにしない場合は、事前の調整を要する。

最適な $\alpha^*$ は、真のマッチングペアに関する尤度 $L(t \mid s)^{+}$ と非マッチングペアに関する尤度 $L(t \mid s)^{-}$ を用いて、以下のように求められる。

\alpha^*=\underset{\alpha>0}{\arg \max }\left\{L(t \mid s)^{+}-L(t \mid s)^{-}\right\}

本研究では、簡単なシミュレーションを通して適切な $\alpha$ の範囲を特定している。
まず、真のペア・非ペアの特徴量のコサイン類似度に関して簡単な確率分布を想定する。そこからサンプルされたコサイン類似度 $\rho_{st}^+, \rho_{st}^-$ を用いて、 $\alpha$ を変化させたときに、真のペアに関する尤度の期待値 $\mathbb{E}\left[L(t \mid s)^{+}\right]$ と非ペアに関する尤度の最大値 $\max \left\{L(t \mid s)^{-}\right\}$ にどの程度の差が生じるのかを確認している。

非マッチペアに対するコサイン類似度は特徴量の次元数 $d$ を用いて、平均0、分散 $1/d$ になることが知られている^[1]。これをもとに、非マッチペアのコサイン類似度は、 $\rho_{st}^- \sim \mathcal{N}(0, 0.05)$ としている。また、真のマッチペアのコサイン類似度は、 $\rho_{st}^+ \sim \mathcal{N}(\mu^+, 0.01)$ としている。経験的に、多くのDNNの特徴量では $\mu^+ > 0.3$ であることを確認しており、たとえばVGG19では $\mu^+ = 0.41$ だそうだ。

結果は以下のようにプロットされており、12.5 ~ 33.7あたりが、 $\alpha$ として適切としている。

実験

QATMは、2つの利用方法が想定されている。

学習済みのバックボーンに、固定の $\alpha$ を設定したQATMを接続することで、単純なテンプレートマッチングに使用できる
学習対象のモデルにQATMを組み込んで、 $\alpha$ も訓練しながら各種タスクに使用できる

それぞれ、テンプレートマッチングの実験と、Image to GPSおよびSemantic Image Alignmentに関する実験を通じて説明する。

学習済みバックボーンに接続するケース

OTBデータセットを用いたテンプレートマッチングの実験

OTBデータセットを用いて、シンプルなテンプレートマッチングのタスクをこなせるかを確認している。タスクとしては、動画中からテンプレートのパッチ画像にマッチする領域を探すというものになっている。

ここでは、モデルの学習は一切行わず、ImageNetで学習済みのVGGを特徴抽出に使用している。

下図(a)を見ると、概ね既存手法を上回っているが、これはもっとも良いAUCになった $\alpha=28.4$ の時の結果になっている。(b)に示すように $\alpha$ は適切に設定しないとSotA手法であるCoTMに劣ってしまうことが示されている。

とはいえ、先の議論で示された適切な $\alpha$ の範囲内にピークがあり、この範囲内では比較的良好な性能が得られることが確認できる。

負例を追加した実験

OTBデータセットは、動画中の物体のトラッキングのためのデータセットであるため、テンプレート画像にマッチする領域が検索対象の画像中に必ず含まれているという前提となっている。しかし、現実的なアプリケーションでは、テンプレート画像にマッチする領域が検索対象に含まれないという状況も十分考えられる。
そこで、本研究ではテンプレートにマッチする領域が検索対象に存在しないサンプルを負例として追加した、Modified OTBデータセットを提案している。テンプレート画像を、検索対象の動画とは別の動画から作成することで負例を作っている。

先ほど最適と求められた $\alpha=28.4$ は固定したままで、ROC曲線を描いてみると下図のようになることが示されている。このように比較すると、CoTMは負例に弱い一方でQATMは安定した性能を得られていることがわかる。また、他の手法と比べても最高のAUCを達成していることがわかる。

QATMの速度

最後に、既存手法との速度比較を行っている。QATMはeinsumのような重たい並列計算が含まれており、CPUでは結構遅いが、GPUでの恩恵を強く受けられることが確認できる。

学習対象のモデルに組み込むケース

こちらのケースに関しては簡単な紹介にとどめる。

Image to GPSに関する実験とSemantic Image Alignmentに関する実験を行なっている。これらの実験では、学習対象のモデルの途中でQATMを使用し、 $\alpha$ も訓練対象のパラメーターとなる。

いずれの実験でも、ベースとなる既存のモデル内の「特徴マップ同士のセル単位での類似度や対応づけを計算するモジュール」をQATMに置き換えた上で訓練している。なお、QATMの $\alpha$ も訓練対象のパラメーターとなる。

論文では、いずれの実験でも、ベースとなっているモデルの性能を上回るということを示している。

脚注

Xu Zhang, X Yu Felix, Sanjiv Kumar, and Shih-Fu Chang. Learning spread-out local feature descriptors. In Proceedings of the IEEE International Conference on Computer Vision, pages 4605–4613, 2017. ↩︎