[論文要約] DUSt3R: Geometric 3D Vision Made Easy
随時更新していく予定です。
モチベーションを保つためWIPでも公開しています。
ご容赦ください。
DUSt3RはNaver Labs Europeが開発した3D Reconstruction手法で、CVPR2024に採択された。全くoverlapがない2枚の画像のカメラパラメータを推定し、3Dを再構築できてしまう(?)など、界隈をざわつかせている。3月1日に実装が公開された
示されている結果が衝撃的すぎてまだ半信半疑
Abstruct
- 課題意識: 従来のMulti-view stereo(MVS)は事前にカメラパラメータの推定が必要で、やっかい
- 着想: 画像ペアでの再構築を点群の回帰問題として解くことで、通常用いるカメラプロジェクションの強い制約を緩和する
- 副次的効用: このやり方で、単画像の推定問題と多画像の再構築を統一的に扱えうるようになる。
- 手法: Transformerアーキテクチャを採用し、学習済モデルを有効活用する
- 効用: 3Dモデルや深度情報だけでなく、カメラパラメータやピクセルマッチなど従来手法の中間生成物も出力できる
Introduction
"Unconstrained image-based dense 3D reconstruction from multiple views"(以下、3D再構築)の現在のデファクトスタンダードであるSfM-MVSアプローチは、多数の部分問題に分解して結果を得る。その課題は、ある部分問題で失敗すればそれ以降のstepは失敗し、満足な結果を得られない。実際多くのケースでSfMは失敗する(わかる😊)。
この論文でラディカルに異なるアプローチであるDUSt3Rを提案する。その中心となるのは画像ペアのみからシーン表現を回帰するネットワークである。シーン表現は3D pointmapと呼ばれシーンの形状・ピクセルとの対応づけ・視点間の関係が埋め込まれている。これが可能となるのは、2Dと3D構造をを同時に扱えるからである(既存の一方向のアプローチとは対照的)。モデルはtransformerアーキテクチャで、publicデータを用いて教師あり学習されている。また、それぞれの画像ペアから推定された3D表現をまとめるためバンドル調整を再考した。再射影エラーを用いるバンドル調整とは反対に、カメラや形状を直接3Dにおいて最適化することで、速度と収束性を得た。
まとめると寄与は4つである。
- 初めてのend-to-end 3D再構築パイプラインを提案する
- 新たな3D表現のpointmapを導入する。これにより問題がシンプルになる。
- 3Dシーン全体をアラインする最適化プロセスを導入する。これにより多くの3D visionタスクを統一的に扱える。
- 様々なたすくにおいてSoTAを達成
Related work
以下の要素技術について言及。分野の概論や、近年の動向を知りたければぜひ参照ください。
- Structure-from-Motion
- Multi-View Stereo
- Direct RGB-to-3D
- Pointmaps
Method
全体の構成は画像ペアからのpointmap推定と、各タスクへの後処理に分けられる。
pointmap推定モデル構成
モデルは以下の通り。
- 重みを共有したTransformer
- Cross Attentionを持つ一対のDecoder
- 回帰 head
両画像のpointmapが、一方のカメラ座標系で 出力される
学習
損失関数としては、pointmapの推定位置とGround Truthとの距離が損失がベースとなる。ただし、推定とGTはともに平均距離で正規化される。また推定が困難なpointを扱うため、各pointに対してConfidenceも出力され距離損失が重み付けされる。困難なケースは、空や透明な物体、あるいは片方の画像にしか写っていない点などである。
Downstream Applications
以下のタスクについて説明されている。割愛。
- Recovering Intrinsics
- Relative pose estimation
- Absolute pose estimation
Global Alignment
追って記載
Experiments
モデルは以下のpublicデータセットで学習された. realもsyntheticも含んでいる
- Hibitat
- MegaDepth
- ARKitScenes
- Static Scenes 3D
- Blended MVS
- ScanNet++
- CO3D-v2
- Waymo
以下のタスクについて言及されているが割愛し、3D Reconstructionのみ記載する - Visual Localization
- Multi-view Pose Estimation
- Monocular Depth
- Multi-view Depth
3D Reconstruction
- Dataset: DTU
- 問題設定: DTUでのfinetuneなし
- Metics
- accuracy: 推定の各点からGTへの最短距離
- completeness: GTの各点から推定への最短距離
- overall: 上記の平均
スコアが劣っているように見えるが、事前情報なしのアプローチは初であり、問題設定が違う。
元論文には、定性結果として色々衝撃的なものが記載されている。
Discussion