👀

【論文メモ】Optimizing Anchor-based Detectors for Autonomous Driving Scenes

2022/10/27に公開
タイトル Optimizing Anchor-based Detectors for Autonomous Driving Scenes
リンク https://arxiv.org/abs/2208.06062
著者 Xianzhi Du, Wei-Chih Hung, Tsung-Yi Lin
投稿日付 2022/08/11

1. どんな論文か?

一般的なアンカーベースの物体検出モデルを最適化して、WaymoのReal-time 2D Detectionデータセットで最高精度(RCNN-RS)と最高推論速度(RetinaNet-RS)を達成。また、入力画像とモデルのbackboneのスケーリングについても考察している。
ちなみに最高精度はNvidia Tesla V100 GPUで1 frame 70ms以内に推論しなければならない制約の中でのもの(このデータセットを使ったコンペティションのルール)。

1.png

2. 先行研究と比べてどこがすごいか?

この論文はコンペティションが終わった後のものでLeaderboardには載っていないが、優勝したモデルに比べ、AP/L1が0.7571から0.769に改善している。一方でAP/L2は0.704から0.701と少し低い結果となっている。

3. 技術や手法の要旨

RCNN-RSとRetinaNet-RSをそのまま使うのではなく、いくつかの変更をおこなっている。

RCNN-RSの変更点

アーキテクチャ

  • 精度向上のため、Faster RCNN → Cascade R-CNNへ変更。Cascade RCNN-RSフレームワークとなる。
  • 検出ヘッドとRPNヘッドのすべての畳み込み層を削除。精度を維持して推論速度が向上した。
  • より小さなスケールで物体を認識できるようにfeature pyramidをL3-L7からL2-L6へ変更。

推論時の工夫

  • 2ステージ目に送る候補物体数を1000→512へ変更。
  • NMSの閾値を0.5→0.7
  • FP16とNVIDIA TensorRTを適用。

RetinaNet-RSの変更点

  • RCNN-RS固有のものを除いて同じ変更を行った。

以下がそれぞれの変更に対する精度、速度の変化。

2.png

推論速度はFP16とTensorRTによるところが大きい。

4. どのように検証したか

  • データはWaymo Open Datasetを使用。
  • COCOデータセットで事前訓練。
  • ハイパーパラメータ等は特に変わったところはない。
  • 学習はTPUv3を使用。

また、入力解像度とモデルbackboneのスケーリングを検討するため、以下の組み合わせで実験を行った。

3.png

モデルのbackboneを大きくする方が入力解像度を上げるよりも効率的な結果となった。

5.png

RetinaNet-RSは、精度ではRCNN-RSに劣るものの6.3msの推論速度を達成した。

4.png

5. 感想

精度と速度のトレードオフについてアブレーションスタディされていてよかった。なんとかしなければいけない時の優先順位付けとして参考になりそう。あと人並みの感想ですがTensorRTすごいなという感じ。

6. 次に読むべき論文は?

  • この論文でフレームワークに採用されたObject Detectionモデル

https://arxiv.org/abs/2107.00057

Discussion