🎃

【論文メモ】LidarAugment: Searching for Scalable 3D LiDAR Data Augmentations

2022/11/15に公開

機械学習

Autonomous driving

perception

tech

タイトル	LidarAugment: Searching for Scalable 3D LiDAR Data Augmentations
リンク	https://arxiv.org/abs/2210.13488
著者	Zhaoqi Leng, Guowang Li, Chenxi Liu, Ekin Dogus Cubuk, Pei Sun, Tong He, Dragomir Anguelov, Mingxing Tan
投稿日付	2022/10/24

1. どんな論文か？

3Dデータに対するデータ拡張の研究はいろいろあるが、SOTAの3D物体検出では単純なデータ拡張（rotation, flip, Groud-truth samplingなど）しか使用されていない。これは2Dデータとは対照的である。

3Dデータ拡張の課題は、入力データのさまざまな表現やモデルのキャパシティを考慮しなければいけないところ。例として距離画像と点群データでは異なる拡張が必要となるし、大きなモデルは過学習しやすく、より強力な拡張が必要になる。

したがって、様々なモデルに合わせて3Dデータ拡張を調整する必要があるが、探索ベース（2Dで言えばAutoAugment、RandAugmentのようなアプローチ）の先行研究で使用されているような複雑な探索空間ではコストやパフォーマンスの面で最適ではないことが明らかとなった。

本論文では、3Dデータ拡張のために単純化された探索ベースのアプローチであるLidarAugmentを提案している。

2. 先行研究と比べてどこがすごいか？

本論文の貢献は

一般的な3Dデータ拡張の探索スペースは最適ではなく、さまざまなモデル、データセットに合わせて調整する必要があることを明らかにした。
2つのハイパーパラメーターのみで10のデータ拡張ポリシーを最適化し、多様であり、実用的なデータ拡張を提供するLidarAugmentを提案。さらに、点群と距離画像の両方の入力表現を一貫して拡張する方法を開発した（両者はLiDARのネイティブ表現なのに距離画像の拡張は十分に研究されていなかった）。
CNNベース、Transformerベースのモデルで精度が一貫して改善。また、モデルのスケーリングが可能になり、大きな3D物体検出モデルの精度は大幅に向上した。

3. 技術や手法の要旨

点群と距離画像のデータ拡張

点群

先行研究で提案されているような一連のデータ拡張を適用する。具体的には、グローバル操作 (回転、スケーリング、移動、反転、点の削除) とローカル操作 (ボックスの削除、ボックスの貼り付け、背景入れ替え、点の削除、錐台に特徴ノイズを追加)。

距離画像

オブジェクトの貼り付けや背景入れ替えは距離画像表現を乱すので新しいアプローチを提案。

距離画像のピクセルを (x, y, z) 座標に基づいて点群に変換する。
変換後の点群と元の画像ピクセルのインデックスの対応を保持する。
変換した点群へ点群用のデータ拡張を適用する。
点群を元の2D画像表現へ変換する。

↓の図が例

各データ拡張手法をWaymo Open DatasetとKITTIのそれぞれに適用して試したところ、それぞれのデータセットで効果的な拡張手法が異なる（データセットの特性が関連している）ことがわかったため、2D画像でのRandAugmentのように異なるデータセットで同じ探索空間を単純に使用することは最適ではなく、それぞれのデータセットで最適なハイパーパラメータに基づいてデータ拡張を調整する必要があると提言（これは3D物体検出固有の課題とのこと）。

また、複数のデータ拡張手法を確率pと強度mの2つのグローバルハイパーパラメータで制御するアプローチを提案（ここの詳細がとにかくわかりにくかった。読みとれるのは、各データ拡張手法を事前に一つずつ適用して最適なハイパーパラメータを探索する→最適値が強度mの最大値になるように各データ拡張手法のハイパーパラメータをスケーリング→確率pと強度mをグリッドサーチして調整）。

4. どのように検証したか

データセット

Waymo Open Dataset
- 評価指標はmAPH(Mean average precision weighted by heading) L2

学習

いろいろなモデルを試すが、元の学習設定に厳密に従い、データ拡張だけをLidarAugmentへ置き換える。

Adamオプティマイザー
コサイン学習率
最大学習率1e-3
総計16e4ステップ
バッチサイズ64

実験結果

↓が検証セットでの結果。検証セットの結果からCNNベースでもTransformerベースのモデルでも精度が改善していることがわかる。また、SWFormerでは既に4つの強力なデータ拡張（回転、反転、スケーリング、ランダムな点の削除）が行われているが、LidarAugmentはそれを上回る結果となった。この結果はアンサンブルやTTAを行わない中ではSOTA。