<h1 id="%E6%A6%82%E8%A6%81">
<a class="header-anchor-link" href="#%E6%A6%82%E8%A6%81" aria-hidden="true"></a> 概要</h1>
<p>モバイル環境でもリアルタイムに推論可能な軽量物体トラッカーFEARを提案。動的に更新されるDual Templateと、効率的な特徴量融合による高速なトラッキングを可能にしている。</p>
<p><img src="https://res.cloudinary.com/zenn/image/fetch/s--60kUOuOj--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_1200/https://storage.googleapis.com/zenn-user-upload/deployed-images/dcf8bbf154e44ed9a6041112.jpg%3Fsha%3D587e41d51897aa0c044044173cbe97dd045e13d1" alt width="640" loading="lazy" class="md-img"></p>
<h1 id="%E6%9B%B8%E8%AA%8C%E6%83%85%E5%A0%B1">
<a class="header-anchor-link" href="#%E6%9B%B8%E8%AA%8C%E6%83%85%E5%A0%B1" aria-hidden="true"></a> 書誌情報</h1>
<ul>
<li>Borsuk, Vasyl, et al. "FEAR: Fast, Efficient, Accurate and Robust Visual Tracker." European Conference on Computer Vision. Springer, Cham, 2022.</li>
<li><a href="https://arxiv.org/abs/2112.07957" target="_blank" rel="nofollow noopener noreferrer">https://arxiv.org/abs/2112.07957</a></li>
<li><a href="https://github.com/pinatafarms/feartracker" target="_blank" rel="nofollow noopener noreferrer">公式実装</a></li>
</ul>
<h1 id="%E3%83%9D%E3%82%A4%E3%83%B3%E3%83%88">
<a class="header-anchor-link" href="#%E3%83%9D%E3%82%A4%E3%83%B3%E3%83%88" aria-hidden="true"></a> ポイント</h1>
<p>モデルは以下の5つのモジュールから構成される。</p>
<ul>
<li>Feature Extraction Network</li>
<li>Dual Template Representations</li>
<li>Pixel-wise Fusion Block</li>
<li>Bounding Box Regression Head</li>
<li>Bounding Box Classification Head</li>
</ul>
<p><img src="https://res.cloudinary.com/zenn/image/fetch/s--OSuiOaLD--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_1200/https://storage.googleapis.com/zenn-user-upload/deployed-images/04777789a4c036981d6e6921.jpg%3Fsha%3D382b8532d8d1e94df95719451781996673e5d1c2" alt width="800" loading="lazy" class="md-img"></p>
<h2 id="feature-extraction-network">
<a class="header-anchor-link" href="#feature-extraction-network" aria-hidden="true"></a> Feature Extraction Network</h2>
<p>ImageNetで学習済みのバックボーンを使用する。チャンネル数を調整するためのAdjustLayer（Conv層+BN）が続く。モデルのサイズごとに以下のようなバックボーンを使用する。<br>
FBNet<sup class="footnote-ref"><a href="#fn-758e-1" id="fnref-758e-1">[1]</a></sup>は、NASによってモバイル向けに最適化されたアーキテクチャを採用している。</p>
<ul>
<li>FEAR-M: ResNet-50</li>
<li>FEAR-L: RegNet</li>
<li>FEAR-XS: FBNet</li>
</ul>
<h2 id="dual-template-representations">
<a class="header-anchor-link" href="#dual-template-representations" aria-hidden="true"></a> Dual Template Representations</h2>
<p>FEARでは、StaticとDynamicの2種類のテンプレートを使用する。Dynamicは追跡対象の時間的な見えの変化に追従するためのテンプレートで、推論時には定期的に更新される。</p>
<p>以下は、記号の整理である。</p>
<ul>
<li>Staticテンプレート画像<embed-katex><eq class="zenn-katex">I_T</eq></embed-katex>。ここから得られる特徴マップを<embed-katex><eq class="zenn-katex">F_T</eq></embed-katex>とする。</li>
<li>Dynamicテンプレート画像<embed-katex><eq class="zenn-katex">I_d</eq></embed-katex>。ここから得られる特徴マップを<embed-katex><eq class="zenn-katex">F_d</eq></embed-katex>とする</li>
<li>
<embed-katex><eq class="zenn-katex">F_T, F_d</eq></embed-katex>の重みつき和<embed-katex><eq class="zenn-katex">F_T^{\prime}=(1-w) F_T+w F_d</eq></embed-katex>が、テンプレートの最終的な特徴マップとして使用される。<embed-katex><eq class="zenn-katex">w</eq></embed-katex>は学習対象のパラメーターである。これをAvgPoolしたものをDual-Template embedding<embed-katex><eq class="zenn-katex">e_T</eq></embed-katex>という。</li>
<li>検索画像<embed-katex><eq class="zenn-katex">I_S</eq></embed-katex>。Nフレームあり、そこから特徴マップ<embed-katex><eq class="zenn-katex">F_S</eq></embed-katex>が得られる。分類スコアによって重みづけしてPoolingしたものを<embed-katex><eq class="zenn-katex">e_S</eq></embed-katex>と呼ぶ。</li>
<li>ネガティブ画像<embed-katex><eq class="zenn-katex">I_N</eq></embed-katex>。追跡対象が写っていない画像からサンプルする。こちらも同様に分類スコアによって重みづけしてPoolingしたものを<embed-katex><eq class="zenn-katex">e_N</eq></embed-katex>とする。</li>
</ul>
<p><img src="https://res.cloudinary.com/zenn/image/fetch/s---zRlL-Y5--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_1200/https://storage.googleapis.com/zenn-user-upload/deployed-images/03290b46821e91efae3804f6.jpg%3Fsha%3D576be63bcde71d6afb3ff7c40071c0206f821850" alt width="800" loading="lazy" class="md-img"></p>
<p>Dynamicテンプレートに使用する<embed-katex><eq class="zenn-katex">I_d</eq></embed-katex>の作り方が訓練時と推論時で異なる。</p>
<ul>
<li>訓練時：検索画像<embed-katex><eq class="zenn-katex">I_S</eq></embed-katex>から1枚サンプルして正解領域をクロップしたものを<embed-katex><eq class="zenn-katex">I_d</eq></embed-katex>とし、そこから<embed-katex><eq class="zenn-katex">F_d</eq></embed-katex>を算出、以降は<embed-katex><eq class="zenn-katex">F_T</eq></embed-katex>と組み合わせて順次<embed-katex><eq class="zenn-katex">F_T^{\prime}, e_T</eq></embed-katex>を得る。<embed-katex><eq class="zenn-katex">e_T, e_S</eq></embed-katex>の距離が近く、<embed-katex><eq class="zenn-katex">e_T, e_N</eq></embed-katex>の距離が遠くなるようにTriplet Lossを損失に加える。</li>
<li>推論時：<embed-katex><eq class="zenn-katex">e_S</eq></embed-katex>を各フレームについて算出する。前回の推論で得られた<embed-katex><eq class="zenn-katex">I_d</eq></embed-katex>を使って、固定の<embed-katex><eq class="zenn-katex">I_T</eq></embed-katex>と組み合わせて<embed-katex><eq class="zenn-katex">e_T</eq></embed-katex>まで計算しておく。<embed-katex><eq class="zenn-katex">e_T</eq></embed-katex>ともっともコサイン類似度が高くなる<embed-katex><eq class="zenn-katex">e_S</eq></embed-katex>に対応するフレームについて、FEARの後続処理を適用してトラック対象の領域を検出してクロップし、次の<embed-katex><eq class="zenn-katex">I_d</eq></embed-katex>とする。</li>
</ul>
<h2 id="pixel-wise-fusion-block">
<a class="header-anchor-link" href="#pixel-wise-fusion-block" aria-hidden="true"></a> Pixel-wise Fusion Block</h2>
<p>テンプレート画像の特徴マップ<embed-katex><eq class="zenn-katex">F'_T</eq></embed-katex>が検索画像特徴マップ<embed-katex><eq class="zenn-katex">F_S</eq></embed-katex>のどこに対応しているかを知るために、多くの既存手法では相互相関（cross-correlation）が使用される。これは、<embed-katex><eq class="zenn-katex">F'_T</eq></embed-katex>そのものをカーネルとして<embed-katex><eq class="zenn-katex">F_S</eq></embed-katex>に対して畳み込みを行う2dConv層として実装されることが多いが、軽量化のための工夫としてより簡易な方法がいままでも提案されてきている。<br>
FEARでは、検索画像の特徴マップ<embed-katex><eq class="zenn-katex">F_S</eq></embed-katex>を3x3 Conv-BN-ReLUブロックに通して新たに得られた特徴マップに対して、テンプレート特徴マップ<embed-katex><eq class="zenn-katex">F'_T</eq></embed-katex>とのpixel-wiseなcross-correlationを計算する。<a href="https://github.com/PinataFarms/FEARTracker/blob/8c2f783d114bf6f7ba5c008a2b5dfb180f0b933c/model_training/model/blocks.py#L123" target="_blank" rel="nofollow noopener noreferrer">公式実装</a>を確認すると、pixel-wise cross-correlationは、以下のような行列の掛け算として実装できる。</p>
<div class="code-block-container"><pre class="language-python"><code class="language-python"><span class="token comment"># z: (b, c=256, hw=64)</span>
<span class="token comment"># x: (b, c, H=16, W=16)</span>
s <span class="token operator">=</span> torch<span class="token punctuation">.</span>matmul<span class="token punctuation">(</span>z<span class="token punctuation">.</span>permute<span class="token punctuation">(</span><span class="token number">0</span><span class="token punctuation">,</span> <span class="token number">2</span><span class="token punctuation">,</span> <span class="token number">1</span><span class="token punctuation">)</span><span class="token punctuation">,</span> x<span class="token punctuation">.</span>view<span class="token punctuation">(</span>b<span class="token punctuation">,</span> c<span class="token punctuation">,</span> <span class="token operator">-</span><span class="token number">1</span><span class="token punctuation">)</span><span class="token punctuation">)</span><span class="token punctuation">.</span>view<span class="token punctuation">(</span>b<span class="token punctuation">,</span> <span class="token operator">-</span><span class="token number">1</span><span class="token punctuation">,</span> w<span class="token punctuation">,</span> h<span class="token punctuation">)</span>
</code></pre></div><p>これをもとの特徴マップと結合して3x3 Conv-BN-ReLUブロックに通して得られる特徴マップを出力とする。</p>
<p><img src="https://res.cloudinary.com/zenn/image/fetch/s---KeQPvT7--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_1200/https://storage.googleapis.com/zenn-user-upload/deployed-images/fa1559190186eb430e5e1a6e.jpg%3Fsha%3D02edb06410cddf87f279e1048ee022ccac543a48" alt loading="lazy" class="md-img"></p>
<aside class="msg message"><span class="msg-symbol">!</span><div class="msg-content">
<p>3x3 Conv-BN-ReLUブロックのConvは、公式実装では3x3のdepth-wise Convと1x1のpoint-wise Convを連続して適用する操作であるSepConvが使用されています。<br>
また、論文中ではconcat後のConv2dはカーネルサイズ1だと記述されていますが、実装では3x3のdepth-wise Convと1x2のpoint-wise Convを連続して適用する操作であるSepConvが使用されているようです。</p>
</div></aside>
<h2 id="classification-and-bounding-box-regression-heads">
<a class="header-anchor-link" href="#classification-and-bounding-box-regression-heads" aria-hidden="true"></a> Classification and Bounding Box Regression Heads</h2>
<p>一般的な物体検出と同様の、BoundingBoxの分類と回帰を担当するヘッド。<br>
これにより、最終的なトラッキング対象の位置が特定される。3x3 Conv-BN-ReLUブロック数層重ねて最終的な分類と矩形回帰ヘッドとしている。</p>
<h2 id="%E6%90%8D%E5%A4%B1%E9%96%A2%E6%95%B0">
<a class="header-anchor-link" href="#%E6%90%8D%E5%A4%B1%E9%96%A2%E6%95%B0" aria-hidden="true"></a> 損失関数</h2>
<p>損失は、embedding<embed-katex><eq class="zenn-katex">e_T, e_S, e_N</eq></embed-katex>に関するTriplet Loss<embed-katex><eq class="zenn-katex">L_t</eq></embed-katex>と、BoundingBox回帰損失<embed-katex><eq class="zenn-katex">L_{\text{reg}}</eq></embed-katex>と分類の損失<embed-katex><eq class="zenn-katex">L_{c}</eq></embed-katex>が使用される。</p>
<section class="zenn-katex"><eqn><embed-katex display-mode="1">
L=\lambda_1 * L_t+\lambda_2 * L_{\text{reg}}+\lambda_3 * L_c
</embed-katex></eqn></section>
<p>ここで、<embed-katex><eq class="zenn-katex">L_t</eq></embed-katex>はembeddingに関するTriplet Lossであり、下式で表される。これにより、<embed-katex><eq class="zenn-katex">e_T</eq></embed-katex>が<embed-katex><eq class="zenn-katex">e_S</eq></embed-katex>と近く、<embed-katex><eq class="zenn-katex">e_N</eq></embed-katex>と遠くなるようにする。</p>
<section class="zenn-katex"><eqn><embed-katex display-mode="1">
\left.\left.L_t=\max \left\{d\left(e_T, e_S\right)-d\left(e_T, e_N\right)+\operatorname{margin}, 0\right)\right)\right\}
</embed-katex></eqn></section>
<p><embed-katex><eq class="zenn-katex">d</eq></embed-katex>はembedding間の<embed-katex><eq class="zenn-katex">\ell_2</eq></embed-katex>距離を表す。</p>
<section class="zenn-katex"><eqn><embed-katex display-mode="1">
d\left(x_i, y_i\right)=\left\|x_i-y_i\right\|_2
</embed-katex></eqn></section>
<p>回帰損失<embed-katex><eq class="zenn-katex">L_{\text{reg}}</eq></embed-katex>は、下式のようなIoU損失が使用される。</p>
<section class="zenn-katex"><eqn><embed-katex display-mode="1">
L_{\text{reg}}=1-\sum_i \text{IoU} \left(t_{\text{reg}}, p_{\text{reg}}\right)
</embed-katex></eqn></section>
<p>分類ヘッドの出力に関してはFocalLossを適用している。</p>
<section class="zenn-katex"><eqn><embed-katex display-mode="1">
L_c=-\left(1-p_t\right)^\gamma \log \left(p_t\right), \quad p_t= \begin{cases}p &amp; \text { if } \mathrm{y}=1 \\ 1-p &amp; \text { otherwise }\end{cases}
</embed-katex></eqn></section>
<h1 id="%E5%AE%9F%E9%A8%93">
<a class="header-anchor-link" href="#%E5%AE%9F%E9%A8%93" aria-hidden="true"></a> 実験</h1>
<p>省略</p>
<section class="footnotes">
<span class="footnotes-title">脚注</span>
<ol class="footnotes-list">
<li id="fn-758e-1" class="footnote-item">
<p>Borsuk, Vasyl, et al. "FEAR: Fast, Efficient, Accurate and Robust Visual Tracker." European Conference on Computer Vision. Springer, Cham, 2022. <a href="#fnref-758e-1" class="footnote-backref">↩︎</a></p>
</li>
</ol>
</section>


FEAR: Fast, Efficient, Accurate and Robust Visual Tracker

Classification and Bounding Box Regression Heads

Discussion