【論文5分まとめ】DAFNe
概要
1stageのアンカーフリー回転物体検出手法であるDAFNeを提案している。
書誌情報
- Lang, Steven et al. “DAFNe: A One-Stage Anchor-Free Deep Model for Oriented Object Detection.” (2021).
- https://arxiv.org/abs/2109.06148
- 公式実装
ポイント
ネットワーク構造
DAFNeのネットワーク構造を下図に示す。Backbone, Feature Pyramid, Headの3部分からなる。BackboneはResNet50のような標準的なCNNを採用し、Feature Pyramidでは、さまざまな解像度の特徴マップを構築し、各解像度で共通の重みを持つHeadが接続される。
Headは特徴マップのピクセルごとに3つの予測を行う。
- クラス分類
- Box回帰
- Oriented Center-ness
Oriented Center-ness
Center-nessは物体の中央らしさを表す数値で、アンカーフリーの物体検出手法として著名なFCOSで導入された。
DAFNeでは、訓練時のターゲットとなるCenter-nessを下図の(b)のようにすることで、Center-nessを回転物体検出でも使えるように一般化する。
回転矩形の4辺までの距離を
推論時には、Center-ness
頂点の求め方
Regressionのターゲットは自明ではなく、以下の4つのパターンを検討している(下図)。
結論としては、(d)の矩形の中心までのベクトルと、中心から各頂点までのベクトルを求めるという戦略が最も安定して良い結果が得られたとしている。
この場合、中心までのベクトルを求める追加のチャネルが必要になる。
損失関数
クラス分類はFocal Loss、Center-nessにはBinary cross-entropy Loss、RegressionにはSmoothed L1 Lossが用いられる。
特に、Regressionに関しては、訓練を安定化させるために、以下のようなeight point Lossが使用される。
実験
3つのデータセットHRSC2016、DOTA 1.0/1.5について実験をおこなっている。
DOTAではSOTAを更新し、HRSCについては特化した手法であるPIoUに匹敵する精度を実現している。
Discussion