📖

【論文まとめ】Zero-Shot Monocular Scene Flow Estimation in the Wild(CVPR2025)

に公開

Zero-Shot Monocular Scene Flow Estimation in the Wild( (CVPR2025) [1]

Zero-shot monocular scene flow estimationモデルを提案。
使用している図表および計算式はすべて論文[1:1]のものを使用、引用しています。

背景

Segmenta Anything[2]やDepth Anything[3]、DUSt3R[4]のように、SegmentationやDepth推定においては強力な性能を持つ手法が提案されているが、Scene Flow(SF)はそうではない。
以下の3つの問題が理由であると考えられる。

  1. 画像上の2次元の変異はDepthとMotionの組み合わせによる効果によって観測され、どちらか片方の誤差が不正確なSF推定を招く。また、DepthとMotionを共同で推定するとき、scale ambiguityによりSFもill-posedとなる。
  2. 高品質なSF GTは取得が難しく、データセット量が少ない。また、metric scaleのデータセットとrelative scaleのデータセットが混在している。
  3. SF推定はparametrization(Depth+Optical Flow(OF)等)に敏感である。

これらの問題に対して、以下のように対応する。

  1. DepthとMotionに別々のネットワークを用意するのではなく、共同で推定する。
  2. indoors/outdoorsの複数ドメインのデータセットを使用で学習を行う。新しいデータも増やす。metric/relative scaleに対してはscale-alignment手法を導入することで解決を図る。
  3. Pointmaps+3D motion offsetsによるSF推定を採用。DUSt3R/MASt3R[5]を拡張する。

提案手法

モデル構造


Backbone: 重みを共有したCroCoV2[6] ViTで入力画像I_1, I_2\in \mathbb{R}^{H \times W \times 3}をエンコード。
Decoder: 各入力フレーム特徴間でCross-Attentionを行う。
Head: DPTベースのheadでpointmaps X_1, X_2\in \mathbb{R}^{H \times W \times 3}、3D offset map \hat S¥ \in \mathbb{R}^{H \times W \times 3}を推定。
なお、I_1, I_2は時刻t_1, t_2に同一カメラで撮影されたRGB画像である。
Pointmaps X_1, X_2は最初の画像のカメラ空間C_1上での3次元点の集合である。
3D offsetはC_1からC_2((C_1, t_1)→(C_2, t_2))の3D camera motionと3D object motionである。

Scene Flow Datasetの拡張

いくつかの動的なシーンが含まれるデータセットについて、今回の学習に使用することができるようにしてデータ量を増やす。
選定されているデータセットはDepth GTが存在。
データセットにおいて、OFのアノテーションが提供されていないとき、RAFT[7]の推論結果をpseudo-GTとして活用する。
SFのアノテーションが提供されていないときには、DepthとOFから推定し、pseudo-GTとして活用。

metric/relative scaleへの対応


relative depth GTを持つMOVi-F(左)とmetric depth GTを持つVirtual KITTI(右)
上図のように、relative depthとmetric depthとではscaleが異なるという問題がある。
そこで、Scale-adaptive Optimizationを提案。
MiDaS[8]ではrelative depthとmetric depthのscale問題を吸収するために、scale-invariant lossを導入しているが、本手法では、GT depthがmetricの時は正規化せず、relativeの時は正規化を行うようにすることでこの問題を解決する。

結果

Ablation

Scene Flow Parameterization手法の比較

  • Camera-space 3D Offsets(CSO): 提案手法
  • Depth change and optical flow (∆D+OF)
  • End point (EP): DUSt3R, MASt3Rはoffset mapの代わりにpoint mapを推定するので、scene flow headの出力をC2座標上のI_1の3D pointとみなすことができ、\hat S - X_1でSFを推定。

CSOについては、metric/relative scaleへの対応方法の比較も行う。

  • Align: 予測をGTに合わせてrescaling。
  • Always: DUSt3Rのように、GTと予測を[0, 1]に正規化。
  • Never: MASt3Rのように、正規化なし。
  • Xor: 提案手法。relativeは正規化、metriceはそのまま。

Main Results


定量的評価

定性的評価

脚注
  1. Liang, Yiqing, et al. "Zero-Shot Monocular Scene Flow Estimation in the Wild." arXiv preprint arXiv:2501.10357 (2025). ↩︎ ↩︎

  2. Kirillov, Alexander, et al. "Segment anything." Proceedings of the IEEE/CVF international conference on computer vision. 2023. ↩︎

  3. Yang, Lihe, et al. "Depth anything: Unleashing the power of large-scale unlabeled data." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024. ↩︎

  4. Wang, Shuzhe, et al. "Dust3r: Geometric 3d vision made easy." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024. ↩︎

  5. Leroy, Vincent, Yohann Cabon, and Jérôme Revaud. "Grounding image matching in 3d with mast3r." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024. ↩︎

  6. Weinzaepfel, Philippe, et al. "Croco v2: Improved cross-view completion pre-training for stereo matching and optical flow." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023. ↩︎

  7. Teed, Zachary, and Jia Deng. "Raft: Recurrent all-pairs field transforms for optical flow." Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part II 16. Springer International Publishing, 2020. ↩︎

  8. Ranftl, René, et al. "Towards robust monocular depth estimation: Mixing datasets for zero-shot cross-dataset transfer." IEEE transactions on pattern analysis and machine intelligence 44.3 (2020): 1623-1637. ↩︎

Discussion