【論文読解めも】Fine-tuning CNN Image Retrieval with No Human Annotation
概要
画像検索のために、大量のアノテーションされていない画像を用いて、完全に自動化した方法でCNNを微調整することを提案している。
画像検索の精度を向上させる、トレーニング可能な一般化平均(GeM)Pooling層を提案している。この層は、MaxPoolingやAveragePoolingの一般化と捉えられる。
Radenović, Filip, Giorgos Tolias, and Ondřej Chum. "Fine-tuning CNN image retrieval with no human annotation." IEEE transactions on pattern analysis and machine intelligence 41.7 (2018): 1655-1668.
アノテーションされていない大量の画像を使用している、ということになっているが、SfMを用いた3次元的な画像のクラスタリングを前処理としておこない、それをもとに正例(同一のクラスタに属し、一定の特徴点を共有する画像のペア)と負例(異なるクラスタに属する画像のペア)を作っている。
この辺りには深入りしないが、手順については4.2,5.1あたりに記載されている。
Generalized-mean pooling
GeM PoolはMax PoolやAverage Poolの一般化として捉えられる。
CNNの出力である特徴マップ
チャネル毎に平均をとるのがAverage Poolである。画像検索の文脈ではSPoCベクトルと呼ぶ。
これらの操作は、以下のように一般化できる。Max Poolは
このようにして、得られた
対照学習と損失関数
ペア画像から得られた
白色化と回転
一度訓練したネットワークを用いて、そこから得られる特徴量を白色化して各次元の相関をなくしたうえで、PCAによって回転して固有値の大きい固有ベクトル
これらの処理は、特徴抽出に使用するネットワーク部分のパラメータは固定し、データセット中のサンプルから得られる全ての特徴量をもちいて行われる。白色化は、正例ペアのみを用いて、以下のような共分散行列
また、PCAに関しては負例ペアのみを用いて、以下のような共分散行列を
学習可能な白色化
論文では、