😺
【論文読み】Fully Explicit Dynamic Gaussian Splatting
Fully Explicit Dynamic Gaussian Splatting を読んだのでメモを残します。
概要
- title: Fully Explicit Dynamic Gaussian Splatting
- 会議: NeurIPS 2024
- project page: https://leejunoh.com/Ex4DGS/
- code: https://github.com/juno181/Ex4DGS/
3行でまとめると
- 動的シーンをリアルタイムかつ高品質に描画するために、ガウシアンスプラッティングを4次元(時間軸を含む)へ拡張する手法を提案
- 静的ガウシアンと動的ガウシアンを分離し、動的ガウシアンにはキータイムスタンプごとの位置・回転・不透明度を完全に明示的に保持
- 不要なガウシアンの自動検知や、短い時間範囲から徐々に時間軸を広げて学習する段階的な最適化により、計算コストを抑えつつ高精度を実現
研究の背景と課題
- NeRFベース手法の計算量問題
- 従来のNeRF (Neural Radiance Fields) を用いた動的シーンのレンダリングでは、時間軸を取り込むためにMLPの入力次元が増えたり、変形場などが必要になるため、学習・推論ともに遅く大規模化しがち。
- ガウシアンスプラッティングの静的限界
- 近年提案された3D Gaussian Splattingは高速だが、主に静的シーンを対象にしている。動きの表現まで考慮すると、同じ手法をそのまま拡張するだけではメモリ使用量や訓練時間が膨大になる。
- 高い自由度と低コストの両立
- 動的物体は出現・消失や複雑な動きを含み得るが、それらをすべて明示的に扱うと情報量が爆発する。かといって単純化すると表現力が足りず、写実的レンダリングが難しい。
提案された手法・技術詳細
- Ex4DGSの概要
- 従来の3Dガウシアンを拡張し、「時刻ごとに更新されるガウシアンパラメータ」をキータイムスタンプ単位で完全に明示的に保持
- キーフレーム間のガウシアンの状態は、補間によって計算
- 位置: CHip補間 (滑らかで連続的な動きを実現)
- 回転: Spherical Linear Interpolation (Slerp) (球面線形補間、角度の線形補間によるバイアス問題を回避)
- 不透明度の時間変化を2つのガウシアンの混合モデル(出現用・消失用)として簡易的に実装することで、動的物体のオン・オフを扱う
- 静的ガウシアンと動的ガウシアンの分離
- まず全ガウシアンを「ほぼ動かないもの」(静的)として仮定
- 学習途中で、一定の閾値を超える動きが推定される点を動的に切り替え、キータイムスタンプごとに姿勢や位置を学習
- 静的なものは線形移動程度のパラメータしか持たず、動的なもののみ高次元の補間を行うため、全体のパラメータ数を抑制
- 段階的学習
- 初期は動画の一部(ごく短い期間)で学習し、徐々に時間軸を伸ばす「段階的学習」を採用
- これにより、新たに出現した物体や大きく変化する要素を段階的に取り込める
- 大規模動画を最初から一気に学習するより局所的な最適化が回避され、計算リソースも節約
- 誤差に基づくガウシアンの自動削除 (Point Backtracking)
- 各ガウシアンが長期的に生じるレンダリング誤差を蓄積し、その値が大きいガウシアンを削除する仕組み
- 長時間を通して役に立たない点群を排除でき、冗長なガウシアン増加を抑えつつ高精度な描画を維持
実験結果と考察
- 使用したベンチマーク
- Neural 3D Video
- 18〜21台のカメラで撮影された6セットのマルチビュー屋内ビデオを提供
- 新しいビューとして中央カメラを評価に使用
- Technicolor dataset
- Neural 3D Video
- Neural 3D Videoでの評価
- 低い計算コストを維持しながら、ほとんどの最新モデルよりも優れている
- 低い計算コストを維持しながら、ほとんどの最新モデルよりも優れている
- Technicolor datasetでの評価
- スパースな点群の初期化の条件下で、2番目に良いモデル (STG)と同等の性能
- Technicolor datasetには急速な動きがないため、STGは高精度だった
- 動きのある領域への適応
- Ex4DGSは、学習中にシーン内の動的な点と静的な点を自動的に区別することができる
- 動的な点(例: 動いている物体や変化する光)と静的な点(例: 背景)が、明確に分離されてレンダリングされている
- 視点に依存して色が変わる物体や反射する物体も動的ポイントとして判別可能 (Coffee Martini)
- 出入りの激しい物体や反射・透過など、複雑な変化にも対応できることを実証
- 同じ物体でも、動く部分と静止している部分を区別できる(例:Flame Steak、犬の足と頭)
- Ablation Studies
- 特に、動的ポイント抽出と段階的学習の重要性が高い
- 特に、動的ポイント抽出と段階的学習の重要性が高い
課題
- 新しく出現するオブジェクトへの対応:
- 問題点: シーン中に新しくオブジェクトが出現する場合、そのオブジェクトは初期状態では3D点群として表現されておらず、近傍に参照できる3Dガウシアンも存在しないため、局所解に陥りやすく、再構成がうまくいかないことがある。
- 考えられる解決策: 深度情報のような追加の幾何学的情報を利用して、新しい3D点を初期化することで、この問題を緩和できる可能性あり。
- 単眼ビデオにおけるスケール曖昧性:
- 問題点: 3DGSはスケールの曖昧性の問題があるため、単眼での学習は困難。各タイムスタンプにおけるオブジェクトの正確な幾何学的な手がかりがないため、すべての3Dガウシアンが動的であると扱われてしまう。
- 考えられる解決策: オブジェクトマスクやオプティカルフローといった、意味的な情報を追加で利用することで、オブジェクトの動きをより正確に捉え、この問題に対処できる可能性があある
Discussion