【論文メモ】LidarAugment: Searching for Scalable 3D LiDAR Data Augmentations
タイトル | LidarAugment: Searching for Scalable 3D LiDAR Data Augmentations |
---|---|
リンク | https://arxiv.org/abs/2210.13488 |
著者 | Zhaoqi Leng, Guowang Li, Chenxi Liu, Ekin Dogus Cubuk, Pei Sun, Tong He, Dragomir Anguelov, Mingxing Tan |
投稿日付 | 2022/10/24 |
1. どんな論文か?
3Dデータに対するデータ拡張の研究はいろいろあるが、SOTAの3D物体検出では単純なデータ拡張(rotation, flip, Groud-truth samplingなど)しか使用されていない。これは2Dデータとは対照的である。
3Dデータ拡張の課題は、入力データのさまざまな表現やモデルのキャパシティを考慮しなければいけないところ。例として距離画像と点群データでは異なる拡張が必要となるし、大きなモデルは過学習しやすく、より強力な拡張が必要になる。
したがって、様々なモデルに合わせて3Dデータ拡張を調整する必要があるが、探索ベース(2Dで言えばAutoAugment、RandAugmentのようなアプローチ)の先行研究で使用されているような複雑な探索空間ではコストやパフォーマンスの面で最適ではないことが明らかとなった。
本論文では、3Dデータ拡張のために単純化された探索ベースのアプローチであるLidarAugmentを提案している。
2. 先行研究と比べてどこがすごいか?
本論文の貢献は
- 一般的な3Dデータ拡張の探索スペースは最適ではなく、さまざまなモデル、データセットに合わせて調整する必要があることを明らかにした。
- 2つのハイパーパラメーターのみで10のデータ拡張ポリシーを最適化し、多様であり、実用的なデータ拡張を提供するLidarAugmentを提案。さらに、点群と距離画像の両方の入力表現を一貫して拡張する方法を開発した(両者はLiDARのネイティブ表現なのに距離画像の拡張は十分に研究されていなかった)。
- CNNベース、Transformerベースのモデルで精度が一貫して改善。また、モデルのスケーリングが可能になり、大きな3D物体検出モデルの精度は大幅に向上した。
3. 技術や手法の要旨
点群と距離画像のデータ拡張
点群
先行研究で提案されているような一連のデータ拡張を適用する。具体的には、グローバル操作 (回転、スケーリング、移動、反転、点の削除) とローカル操作 (ボックスの削除、ボックスの貼り付け、背景入れ替え、点の削除、錐台に特徴ノイズを追加)。
距離画像
オブジェクトの貼り付けや背景入れ替えは距離画像表現を乱すので新しいアプローチを提案。
- 距離画像のピクセルを (x, y, z) 座標に基づいて点群に変換する。
- 変換後の点群と元の画像ピクセルのインデックスの対応を保持する。
- 変換した点群へ点群用のデータ拡張を適用する。
- 点群を元の2D画像表現へ変換する。
↓の図が例
各データ拡張手法をWaymo Open DatasetとKITTIのそれぞれに適用して試したところ、それぞれのデータセットで効果的な拡張手法が異なる(データセットの特性が関連している)ことがわかったため、2D画像でのRandAugmentのように異なるデータセットで同じ探索空間を単純に使用することは最適ではなく、それぞれのデータセットで最適なハイパーパラメータに基づいてデータ拡張を調整する必要があると提言(これは3D物体検出固有の課題とのこと)。
また、複数のデータ拡張手法を確率pと強度mの2つのグローバルハイパーパラメータで制御するアプローチを提案(ここの詳細がとにかくわかりにくかった。読みとれるのは、各データ拡張手法を事前に一つずつ適用して最適なハイパーパラメータを探索する→最適値が強度mの最大値になるように各データ拡張手法のハイパーパラメータをスケーリング→確率pと強度mをグリッドサーチして調整)。
4. どのように検証したか
データセット
- Waymo Open Dataset
- 評価指標はmAPH(Mean average precision weighted by heading) L2
学習
いろいろなモデルを試すが、元の学習設定に厳密に従い、データ拡張だけをLidarAugmentへ置き換える。
- Adamオプティマイザー
- コサイン学習率
- 最大学習率1e-3
- 総計16e4ステップ
- バッチサイズ64
実験結果
↓が検証セットでの結果。検証セットの結果からCNNベースでもTransformerベースのモデルでも精度が改善していることがわかる。また、SWFormerでは既に4つの強力なデータ拡張(回転、反転、スケーリング、ランダムな点の削除)が行われているが、LidarAugmentはそれを上回る結果となった。この結果はアンサンブルやTTAを行わない中ではSOTA。
↓が最新のモデル間でテストセットの結果を比較。SOTAである。
モデルをスケーリングさせた時にどうなるか?
ベースライン(SWFormerに使われている4つのデータ拡張)との比較では、ベースラインがモデルを大きくした時にデータ拡張の恩恵を受けなくなるのに対し、LidarAugmentはモデルを大きくしてもパフォーマンスが一貫して向上した。
データが異なる表現の時にどうなるか?
スパースな3D点群を入力として使用するUPillarsとSWFormer以外にオブジェクトを検出するために3Dの生のポイントを使用するStarNetと点群と距離画像の両方を入力として受け取るRSNでも実験を行ったところ、LidarAugmentを適用すると精度が一貫して向上する結果となった。
他の拡張手法との比較、他のデータセットでの検証
それぞれ実験を行うとLidarAugmentが最も機能するデータ拡張手法で、Waymo Open Dataset以外のデータセットでも機能することが確認された。
5. 感想
実験結果は申し分ないし有用そうだと思うが、提案手法の革新部分が読み取れず若干消化不良。読み取れた部分からだと事前に相当計算しないといけないので実用的ではなさそうにも思えた。実装が見てみたい。
6. 次に読むべき論文は?
比較対象になっていたデータ拡張手法の論文
Discussion