Open2
セグメンテーションと単眼深度推定
データセット
セグメンテーション
COCOデータセットは物体検知やKeypoint検知などと共にpanoptic segmentationという、普通のセグメンテーションとinstance segmentationを合わせたラベルを提供している。
MSegは既存のデータセット(ADE20KやKITTIなど)で似たクラスを統合したデータセット。利用する時には内包される各データセットをそれぞれダウンロードしてラベルを整理することになるよう。
深度推定
深度情報のフォーマットを確認したり可視化したりするのにほど良さそう
屋内データセット、だいたい10メートルまで
屋外、だいたい80メートルまで
モデル
セグメンテーション
MSegのデモを動かすにはNVIDIA/apexが必要なので、最新版のPyTorchで使うには何箇所かコードを修正する必要がある(主にapexのSyncBatchNormとtensor.cudaの記述)。
単眼深度推定
AdaBinsはNYUv2(屋内)とKITTI(屋外)で学習されたモデルがそれぞれ公開されてる。出力がメートル単位なので扱いやすそう。
DPTはセグメンテーションと単眼深度推定が利用できる。深度推定の出力はinverse depthというフォーマットで、メートル単位に直すためには追加の処理が必要で面倒かも(https://github.com/intel-isl/MiDaS/issues/63 参照)
その他
画像(uint8)と深度情報(uint16)から点群を作成して可視化できる。JupyterLabで実行すると別ウィンドウが開いて結果を確認できるが、ウィンドウを閉じるたびにJupyterカーネルが再起動する。調査中。