🙌

Memo : Faster R-CNN

2022/10/20に公開約1,100字

https://arxiv.org/pdf/1506.01497.pdf

特徴

  • Region Proposal Network(RPN)により、以前のFast R-CNNでボトルネックになっていた物体領域候補の抽出(Selective Searchを使用)を置き換えたことで推論を高速化
  • 物体領域候補抽出処理と分類を1つのネットワークに統合することで本当の意味で一気通貫に学習可能

各論

Region Proposal Network (RPN)

Region Proposal Network (RPN) は(任意のサイズの)画像を入力とし、物体らしさのスコア(objectness score)を持つ矩形物体候補のセットを出力します。

従来の方法では、スケールに対応するために以下の2つの方法がありましたが、複数の特徴マップの計算やモデルの学習にかなり計算がかかっていました。(それぞれ以下図の一番左と真ん中)

  1. 画像を複数のスケールでリサイズし、各スケールに対して特徴マップを計算
  2. 特徴マップに複数のスケール(および/またはアスペクト比)のスライディングウィンドウを使用(異なるフィルタサイズ(5×7 と 7×5 など)を用いて、異なるアスペクト比のモデルを別々に学習)

そこで、RPNでは、複数のスケールとアスペクト比のアンカーボックスを用いる方法で、単一スケールの画像からCNNを用いて得られた特徴マップを入力として物体らしさを予測できるようにします。単一のサイズの画像と特徴マップにのみ依存し、単一サイズのCNNを用いているため、スケールに対応するための余分な計算が必要ないです。

色々

詳しく書こうと思ったのですが、すでにかなり詳しい記事が多くあったので飛ばします。
以下のURLが非常に参考になります。

Anchorについてわかりやすい
https://medium.com/lsc-psd/faster-r-cnnにおけるrpnの世界一分かりやすい解説-dfc0c293cb69
https://kikaben.com/faster-r-cnn/

学習の方法も記載
https://ohke.hateblo.jp/entry/2019/11/16/230000

受容野の説明
https://www.jonki.net/entry/2021/03/21/102427

Discussion

ログインするとコメントできます