📖

4D Gaussian Splattingのデータセットに関するメモ

に公開

最近4D系のNeRF、Gaussian Splattingについて興味があるので調べています。今回は4D Gaussian Splatting for Real-Time Dynamic Scene Renderingなどのベンチマークで使用されているNeural 3D Video Synthesis Datasetについてまとめます。

Neural 3D Video Synthesis Dataset

データセット詳細

既存の公開4Dデータセットでは扱われてこなかった複雑な動き・環境・視覚効果を網羅している点が大きな特徴。

  • 複雑な物体の動きと見た目:
    • 強い光沢や、半透明・透明なオブジェクト
    • 注がれる液体のような、トポロジーが変化する動き
    • フライパンとトーチガンのような、複雑に絡み合いながら動き、視点によって見え方が大きく変わるオブジェクト
  • ダイナミックな照明と環境:
    • 物体自身が落とす影が動く様子
    • 昼、夜、スポットライトなど、様々な照明条件
    • 室内の暗所+窓越しの屋外風景といった、異なる輝度環境
  • ボリューメトリック効果:
    • 調理中の炎や立ち上る蒸気
  • シーンの複雑さ:
    • リビングルームのような広い空間で、複数の人物が動き回る様子

データ収集方法

データセットの取得には、21台のGoPro Hero 7 Blackカメラを同期させた、カスタムのモバイルマルチビューキャプチャシステムを使用。

撮影設定は以下の通り。

  • 使用カメラ:GoPro Hero 7 Black × 21台
  • カメラモード: リニアFOVモード(魚眼効果を軽減)
  • 解像度: 2.7K (2028 x 2704)
  • フレームレート: 30 FPS
  • 同期: タイムコードシステム
  • カメラパラメータ: COLMAPで算出
  • 学習・検証構成:18台のカメラで学習、1台を評価用に使用

GoProのリニアFOVモードのおかげで、魚眼歪みが比較的少なく、標準的なピンホールカメラモデルで扱えるデータとなっている。

メモ

上記の設定で気になった点を調べる。

  • リニア視野角 (FOV) とは何ですか?

    リニア視野角 (HERO8 Black および MAX では「レンズ」と呼ばれます) により、まっすぐな地平線を、より自然な視点で撮影します。このモードでは、GoPro の広角レンズで撮影するときに典型的に生じるたる形ひずみ (魚眼効果) を、画像の品質を落とすことなく取り除きます。

  • タイムコードシンクロとは何ですか?

    タイムコードシンクロは、複数のHERO13やHERO12カメラのメタデータを同期する機能です。メタデータの同期により、Adobe PremiereやFinal Cut Proなどのポスト処理編集プログラムで、ビデオやオーディオの位置合わせをすばやく簡単に行えます。メタデータの同期は、Quik (クイック) でQRコードを使用することで実行されます。詳細については、以下のセクションを確認してください。

    同期の精度は50ms未満です。

    → 50ms以内の同期とはフレーム数でいうと1.5フレーム分のズレに相当するか

Discussion