🤖

2024/06/06 論文読み勉強会

masahiro-k

2024/06/22に公開

論文読み勉強会とは

機械学習の分野は日進月歩で、日々沢山の論文が出てきます。最新の技術動向を知るためには日頃から論文を読む習慣をつける必要があります。また、沢山読むためには論文を速読するスキルも必要です。そこで、弊社来栖川電算ではみんなで論文を読んで発表する社内勉強会（論文読み勉強会）を始めました。論文読み勉強会では、はじめて読む論文を50分間のタイムアタックで読み、最後に1人1, 2分程度で分かったことを発表する形式で実施しています。

06月06日(木)の勉強会

この日の参加者は3人でした。各メンバーが読んだ論文とそのまとめを紹介します。
これから論文を読んで知識を付けていきたいと思っている参加者が1時間のタイムアタックで読んでまとめた内容なので誤った内容が含まれている可能性がありますのでご了承ください。

各論文の概要

YOLOv10: Real-Time End-to-End Object Detection[1]
- 既存のYOLOのNMSの推論レイテンシー、モデルアーキテクチャを見直して効率化。
EA-LSS: Edge-aware Lift-splat-shot Framework for 3D BEV Object Detection[2]
- LiDAR とカメラを使った3D物体検出
- nuSecnes で SOTA

勉強会の議事録

読んだ人：https://zenn.dev/masahiro_k

論文名
- YOLOv10: Real-Time End-to-End Object Detection
- https://arxiv.org/abs/2405.14458
- 著者：Ao Wang, Hui Chen, Lihao Liu, Kai Chen, Zijia Lin, Jungong Han, Guiguang Ding
どんなもの？
- 既存のYOLOの問題点
  - NMSが推論レイテンシーに悪影響を与える。
  - 各種コンポーネントに冗長性があり、パフォーマンス改善の余地がある。
- 本研究では、後処理とモデルアーキテクチャの両方から上記の問題に対応して効率的なエンドツーエンドのモデルを提案
  - NMSフリーな手法を提案
  - モデルアーキテクチャの見直し
- 以上の結果、YOLOv9と比較して良い性能のモデルになった。
技術や手法のキモはどこ？
- NMS-free学習における一貫性のあるDual Assignments
  - 先行研究
    - これまでのYOLOだと、1対多で正事例を割り当てて推論処理後にNMSを行っていた。このやり方だとNMSに依存するので推論効率が低下する。
    - これを解決するために1対1の割当も提案されているが、これも推論オーバーヘッドを引き起こすか、精度低下につながっていた。
      - 教師データの情報を十分に活用出来ないため（ちゃんと理解できていないが、https://arxiv.org/abs/2211.12860に書いているらしい）
  - 提案手法
  - 2重のラベル割り当て
    - 1対多の割当と1対1の割当の良い所取りのような手法。YOLOモデルに別の1対1のヘッドを追加し、最適化目標を維持しつつ1対1の割当を利用する。
    - 訓練中は両方のheadを同時に最適化して、推論時には1対1のheadのみを利用して、推論オーバーヘッドを最小限にする。
  - 一貫したマッチング指標
    - 割当時には1対1と1対多の割当の一致度を定量的に評価する指標。分類スコア、バウンディングボックスの位置、およびインスタンスのサイズを組み合わせて評価する。
- Holistic Efficiency-Accuracy Driven Model Design
  - モデルアーキテクチャの効率化の話。時間が足りず読めていません。
どうやって有効だと検証した？
- 先行研究の手法と比べて、レイテンシーを低下させた。また、様々なスケールのモデルで計算コストと精度のトレードオフが優れている。
- アブレーションスタディ
  - NMS-freeの導入により、APが0.6%低下するがLatencyが4.63msと大幅に短縮される。
  - 効率駆動モデル設計とすることでパラメータ数、FLOPsが大幅に削減される。
  - 精度駆動モデル設計にすると、効率駆動モデル設計よりは若干Latencyが大きくなるがAPも改善される。
次に読むべき論文は？
- TAL(既存のYOLOの割当手法)：https://arxiv.org/abs/2108.07755
- https://arxiv.org/abs/2211.12860

読んだ人:Cさん

論文名
- EA-LSS: Edge-aware Lift-splat-shot Framework for 3D BEV Object Detection
- http://arxiv.org/abs/2303.17895
どんなもの？
- フュージョンの方法の一つに LSS (Lift Splat Shot) というものがある。これは2Dカメラ画像の奥行きを推定してそれを3Dボクセルに持ち上げる (Lift) するという手法
- しかし、深度推定は難しいので時折深度ジャンプが発生し、精度に悪影響を与えてしまう。例えば車両の端の部分だけ浅く推定されたりする
- 端を考慮した (Edge Aware) LSS を提案する。
- 同様の手法で強力なベースラインである BEVFusion に比べてほとんど無視できる程度の計算量の追加で 1.0〜1.6 ポイントの精度向上を達成
先行研究と比べてどこがすごい？
- 著者が主張する良いところ
  - カメラの PV (Perspective View) を BEV (Bird's Eye View) に変換する方法は大きく2種類ある。Network 系と Depth 推定系。LSS は Depth 推定系の代表的なもの
  - EA-LSS は特に物体の端の深度推定の精度を高めることで検出精度を向上させる
- contribution
技術や手法のキモはどこ？
- EA-LSS フレームワークは EADF (Edge Aware Depth Fusion) と Fine-Grained Depth (FGD) モジュールの2つから構成される
- EADF
  - 点群を投影した深度マップに対して拡大操作を施す
  - それに対するピクセルの空間的な勾配 (古典的な画像処理のエッジ検出的なやつ) を施し、最後の MaxPool をかける
  - これを損失関数計算時の重みのように利用する
- FGD
  - カメラ画像から推定した深度マップをアップサンプリングする (なんのため？)
  - カメラ画像から推定した深度マップは LiDAR 点群から投影された深度マップを教師として学習するが、この時0ピクセルの値が学習を阻害しないように新たな損失関数 FGD Loss を提案
どうやって有効だと検証した？
- BEVFusion に対し EA-LSS を適用。
- nuScenes での結果
議論はある？
- LiDAR とカメラがちゃんとキャリブレーションされていないと使えなさそう
次に読むべき論文
- BEVFusion
- LSS

感想

今回僕はYOLOv10の論文を読みました。訓練時は1対多の割当と1対1の割当の両方を行い、推論時には1対1の割当のみを利用するという発想が面白いと思いました。大きめのモデルではNMS-freeの手法でも通常のNMSを採用した手法と同等の性能が出せるが、小さめのモデルではNMS-freeの手法の方がやや精度が下がるとのことだったので、今後の研究でこの差を埋めることができるかも楽しみです。

また、YOLOも既にv10まで出ていますが、これまでのYOLOに冗長性があり、精度をほとんど犠牲にせずにパラメータ数を半分程度まで減らせたというのは意外でした。

今回は、勉強会の後でYOLOv10の論文の続きを読んで機械学習名古屋研究会（機械学習に関する論文・技術ブログを読み、情報共有のLTをする勉強会）で発表しました。ここにまとめページがあるので、もし良ければそちらも見てください。

参考文献

[1] YOLOv10: Real-Time End-to-End Object Detection

https://arxiv.org/abs/2405.14458

[2] EA-LSS: Edge-aware Lift-splat-shot Framework for 3D BEV Object Detection

http://arxiv.org/abs/2303.17895

来栖川電算Publication

名古屋のAI企業「来栖川電算」の公式publicationです。AI・ML を用いた認識技術・制御技術の研究開発を主軸に事業を展開しています。公式HP→ kurusugawa.jp/ , 採用情報→ kurusugawa.jp/jobs/