Open2021/04/01にコメント追加2

セグメンテーションと単眼深度推定

データセット

COCOデータセットは物体検知やKeypoint検知などと共にpanoptic segmentationという、普通のセグメンテーションとinstance segmentationを合わせたラベルを提供している。

MSegは既存のデータセット（ADE20KやKITTIなど）で似たクラスを統合したデータセット。利用する時には内包される各データセットをそれぞれダウンロードしてラベルを整理することになるよう。

深度情報のフォーマットを確認したり可視化したりするのにほど良さそう

屋内データセット、だいたい10メートルまで

屋外、だいたい80メートルまで

MSegのデモを動かすにはNVIDIA/apexが必要なので、最新版のPyTorchで使うには何箇所かコードを修正する必要がある（主にapexのSyncBatchNormとtensor.cudaの記述）。

AdaBinsはNYUv2（屋内）とKITTI（屋外）で学習されたモデルがそれぞれ公開されてる。出力がメートル単位なので扱いやすそう。

DPTはセグメンテーションと単眼深度推定が利用できる。深度推定の出力はinverse depthというフォーマットで、メートル単位に直すためには追加の処理が必要で面倒かも（https://github.com/intel-isl/MiDaS/issues/63 参照）

画像（uint8）と深度情報（uint16）から点群を作成して可視化できる。JupyterLabで実行すると別ウィンドウが開いて結果を確認できるが、ウィンドウを閉じるたびにJupyterカーネルが再起動する。調査中。