FEAR: Fast, Efficient, Accurate and Robust Visual Tracker
概要
モバイル環境でもリアルタイムに推論可能な軽量物体トラッカーFEARを提案。動的に更新されるDual Templateと、効率的な特徴量融合による高速なトラッキングを可能にしている。
書誌情報
- Borsuk, Vasyl, et al. "FEAR: Fast, Efficient, Accurate and Robust Visual Tracker." European Conference on Computer Vision. Springer, Cham, 2022.
- https://arxiv.org/abs/2112.07957
- 公式実装
ポイント
モデルは以下の5つのモジュールから構成される。
- Feature Extraction Network
- Dual Template Representations
- Pixel-wise Fusion Block
- Bounding Box Regression Head
- Bounding Box Classification Head
Feature Extraction Network
ImageNetで学習済みのバックボーンを使用する。チャンネル数を調整するためのAdjustLayer(Conv層+BN)が続く。モデルのサイズごとに以下のようなバックボーンを使用する。
FBNet[1]は、NASによってモバイル向けに最適化されたアーキテクチャを採用している。
- FEAR-M: ResNet-50
- FEAR-L: RegNet
- FEAR-XS: FBNet
Dual Template Representations
FEARでは、StaticとDynamicの2種類のテンプレートを使用する。Dynamicは追跡対象の時間的な見えの変化に追従するためのテンプレートで、推論時には定期的に更新される。
以下は、記号の整理である。
- Staticテンプレート画像
。ここから得られる特徴マップをI_T とする。F_T - Dynamicテンプレート画像
。ここから得られる特徴マップをI_d とするF_d -
の重みつき和F_T, F_d が、テンプレートの最終的な特徴マップとして使用される。F_T^{\prime}=(1-w) F_T+w F_d は学習対象のパラメーターである。これをAvgPoolしたものをDual-Template embeddingw という。e_T - 検索画像
。Nフレームあり、そこから特徴マップI_S が得られる。分類スコアによって重みづけしてPoolingしたものをF_S と呼ぶ。e_S - ネガティブ画像
。追跡対象が写っていない画像からサンプルする。こちらも同様に分類スコアによって重みづけしてPoolingしたものをI_N とする。e_N
Dynamicテンプレートに使用する
- 訓練時:検索画像
から1枚サンプルして正解領域をクロップしたものをI_S とし、そこからI_d を算出、以降はF_d と組み合わせて順次F_T を得る。F_T^{\prime}, e_T の距離が近く、e_T, e_S の距離が遠くなるようにTriplet Lossを損失に加える。e_T, e_N - 推論時:
を各フレームについて算出する。前回の推論で得られたe_S を使って、固定のI_d と組み合わせてI_T まで計算しておく。e_T ともっともコサイン類似度が高くなるe_T に対応するフレームについて、FEARの後続処理を適用してトラック対象の領域を検出してクロップし、次のe_S とする。I_d
Pixel-wise Fusion Block
テンプレート画像の特徴マップ
FEARでは、検索画像の特徴マップ
# z: (b, c=256, hw=64)
# x: (b, c, H=16, W=16)
s = torch.matmul(z.permute(0, 2, 1), x.view(b, c, -1)).view(b, -1, w, h)
これをもとの特徴マップと結合して3x3 Conv-BN-ReLUブロックに通して得られる特徴マップを出力とする。
Classification and Bounding Box Regression Heads
一般的な物体検出と同様の、BoundingBoxの分類と回帰を担当するヘッド。
これにより、最終的なトラッキング対象の位置が特定される。3x3 Conv-BN-ReLUブロック数層重ねて最終的な分類と矩形回帰ヘッドとしている。
損失関数
損失は、embedding
ここで、
回帰損失
分類ヘッドの出力に関してはFocalLossを適用している。
実験
省略
-
Borsuk, Vasyl, et al. "FEAR: Fast, Efficient, Accurate and Robust Visual Tracker." European Conference on Computer Vision. Springer, Cham, 2022. ↩︎
Discussion