【論文まとめ】Zero-Shot Monocular Scene Flow Estimation in the Wild(CVPR2025)
[1]
Zero-Shot Monocular Scene Flow Estimation in the Wild( (CVPR2025)Zero-shot monocular scene flow estimationモデルを提案。
使用している図表および計算式はすべて論文[1:1]のものを使用、引用しています。
背景
Segmenta Anything[2]やDepth Anything[3]、DUSt3R[4]のように、SegmentationやDepth推定においては強力な性能を持つ手法が提案されているが、Scene Flow(SF)はそうではない。
以下の3つの問題が理由であると考えられる。
- 画像上の2次元の変異はDepthとMotionの組み合わせによる効果によって観測され、どちらか片方の誤差が不正確なSF推定を招く。また、DepthとMotionを共同で推定するとき、scale ambiguityによりSFもill-posedとなる。
- 高品質なSF GTは取得が難しく、データセット量が少ない。また、metric scaleのデータセットとrelative scaleのデータセットが混在している。
- SF推定はparametrization(Depth+Optical Flow(OF)等)に敏感である。
これらの問題に対して、以下のように対応する。
- DepthとMotionに別々のネットワークを用意するのではなく、共同で推定する。
- indoors/outdoorsの複数ドメインのデータセットを使用で学習を行う。新しいデータも増やす。metric/relative scaleに対してはscale-alignment手法を導入することで解決を図る。
- Pointmaps+3D motion offsetsによるSF推定を採用。DUSt3R/MASt3R[5]を拡張する。
提案手法
モデル構造
Backbone: 重みを共有したCroCoV2[6] ViTで入力画像
Decoder: 各入力フレーム特徴間でCross-Attentionを行う。
Head: DPTベースのheadでpointmaps
なお、
Pointmaps
3D offsetは
Scene Flow Datasetの拡張
いくつかの動的なシーンが含まれるデータセットについて、今回の学習に使用することができるようにしてデータ量を増やす。
選定されているデータセットはDepth GTが存在。
データセットにおいて、OFのアノテーションが提供されていないとき、RAFT[7]の推論結果をpseudo-GTとして活用する。
SFのアノテーションが提供されていないときには、DepthとOFから推定し、pseudo-GTとして活用。
metric/relative scaleへの対応
relative depth GTを持つMOVi-F(左)とmetric depth GTを持つVirtual KITTI(右)
上図のように、relative depthとmetric depthとではscaleが異なるという問題がある。
そこで、Scale-adaptive Optimizationを提案。
MiDaS[8]ではrelative depthとmetric depthのscale問題を吸収するために、scale-invariant lossを導入しているが、本手法では、GT depthがmetricの時は正規化せず、relativeの時は正規化を行うようにすることでこの問題を解決する。
結果
Ablation
Scene Flow Parameterization手法の比較
- Camera-space 3D Offsets(CSO): 提案手法
- Depth change and optical flow (∆D+OF)
- End point (EP): DUSt3R, MASt3Rはoffset mapの代わりにpoint mapを推定するので、scene flow headの出力をC2座標上の
の3D pointとみなすことができ、I_1 でSFを推定。\hat S - X_1
CSOについては、metric/relative scaleへの対応方法の比較も行う。
- Align: 予測をGTに合わせてrescaling。
- Always: DUSt3Rのように、GTと予測を[0, 1]に正規化。
- Never: MASt3Rのように、正規化なし。
- Xor: 提案手法。relativeは正規化、metriceはそのまま。
Main Results
定量的評価
定性的評価
-
Liang, Yiqing, et al. "Zero-Shot Monocular Scene Flow Estimation in the Wild." arXiv preprint arXiv:2501.10357 (2025). ↩︎ ↩︎
-
Kirillov, Alexander, et al. "Segment anything." Proceedings of the IEEE/CVF international conference on computer vision. 2023. ↩︎
-
Yang, Lihe, et al. "Depth anything: Unleashing the power of large-scale unlabeled data." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024. ↩︎
-
Wang, Shuzhe, et al. "Dust3r: Geometric 3d vision made easy." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024. ↩︎
-
Leroy, Vincent, Yohann Cabon, and Jérôme Revaud. "Grounding image matching in 3d with mast3r." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024. ↩︎
-
Weinzaepfel, Philippe, et al. "Croco v2: Improved cross-view completion pre-training for stereo matching and optical flow." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023. ↩︎
-
Teed, Zachary, and Jia Deng. "Raft: Recurrent all-pairs field transforms for optical flow." Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part II 16. Springer International Publishing, 2020. ↩︎
-
Ranftl, René, et al. "Towards robust monocular depth estimation: Mixing datasets for zero-shot cross-dataset transfer." IEEE transactions on pattern analysis and machine intelligence 44.3 (2020): 1623-1637. ↩︎
Discussion