Open2

セグメンテーションと単眼深度推定

dhirookadhirooka

データセット

セグメンテーション

https://paperswithcode.com/task/semantic-segmentation

https://groups.csail.mit.edu/vision/datasets/ADE20K/

COCOデータセットは物体検知やKeypoint検知などと共にpanoptic segmentationという、普通のセグメンテーションとinstance segmentationを合わせたラベルを提供している。

https://cocodataset.org/#panoptic-2020

MSegは既存のデータセット(ADE20KやKITTIなど)で似たクラスを統合したデータセット。利用する時には内包される各データセットをそれぞれダウンロードしてラベルを整理することになるよう。

https://github.com/mseg-dataset/mseg-api

深度推定

https://paperswithcode.com/task/monocular-depth-estimation

深度情報のフォーマットを確認したり可視化したりするのにほど良さそう

http://redwood-data.org/indoor/dataset.html

屋内データセット、だいたい10メートルまで

https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html

屋外、だいたい80メートルまで

http://www.cvlibs.net/datasets/kitti/eval_depth.php?benchmark=depth_prediction

dhirookadhirooka

モデル

セグメンテーション

https://github.com/facebookresearch/detectron2

https://github.com/open-mmlab/mmsegmentation

https://github.com/qubvel/segmentation_models.pytorch

MSegのデモを動かすにはNVIDIA/apexが必要なので、最新版のPyTorchで使うには何箇所かコードを修正する必要がある(主にapexのSyncBatchNormとtensor.cudaの記述)。

https://github.com/mseg-dataset/mseg-semantic

単眼深度推定

AdaBinsはNYUv2(屋内)とKITTI(屋外)で学習されたモデルがそれぞれ公開されてる。出力がメートル単位なので扱いやすそう。

https://github.com/shariqfarooq123/AdaBins

DPTはセグメンテーションと単眼深度推定が利用できる。深度推定の出力はinverse depthというフォーマットで、メートル単位に直すためには追加の処理が必要で面倒かも(https://github.com/intel-isl/MiDaS/issues/63 参照)

https://github.com/intel-isl/DPT

https://github.com/nianticlabs/monodepth2

https://paperswithcode.com/task/monocular-depth-estimation

その他

画像(uint8)と深度情報(uint16)から点群を作成して可視化できる。JupyterLabで実行すると別ウィンドウが開いて結果を確認できるが、ウィンドウを閉じるたびにJupyterカーネルが再起動する。調査中。

https://github.com/intel-isl/Open3D