第2回 Spatial AI 勉強会の開催報告 (0629)
はじめまして!
株式会社エクサウィザーズ先端技術開発グループの金田綾乃です!
2025年6月29日(日)弊社株式会社エクサウィザーズ(東京・芝浦)にて 第2回 Spatial AI勉強会を開催しました。そのレポートです。
まずはこちらの勉強会と運営コミュニティについて少し紹介させていただきます。
Spatial AI Networkとは?
Spatial AI Network は、3Dビジョンやロボティクス、シーン認識など、空間認識AI(Spatial AI) に関連する最先端の研究・技術情報を分野横断的に共有・議論するための自主運営型の勉強会コミュニティです。
複数の大学・企業・研究機関に所属する有志メンバーによって構成されており、論文の紹介だけでなく、オープンソースコードの読み解きや実装ノウハウの共有など、実践的な内容にも重点が置かれています。
勉強会の形式
内部勉強会:運営メンバーの関係者を中心とした内部メンバーで非公開の勉強会。1〜2週ごとのオンライン開催で全員が発表を担当する前提。
外部勉強会:グループ外の発表者も招くオープン形式で、年に2〜4回開催。可能な限りハイブリッド開催で実施
運営メンバー
加藤 大晴(Preferred Networks) 川西 康友(理化学研究所) 川原 僚(京都大学)
櫻田 健(京都大学) 下西 慶(京都大学) 武富 貴史(サイバーエージェント)
立野 圭祐(Google) 延原章平(京都工芸繊維大学)
リンク
Spatial AI Network: https://sainetwork.connpass.com/
勉強会資料: https://speakerdeck.com/spatial_ai_network
X アカウント:https://x.com/spatialainet
第2回 Spatial AI勉強会のレポート
今回は私が内部勉強会のメンバーとして参加している関係で、この外部勉強会の第2回を弊社エクサウィザーズで行いました。
また懇親会のサポートとして弊社とサイバーエージェント様より協賛をいただいています。
今回の発表者/タイムスケジュールは以下です。タイトルから発表資料に飛ぶことができます。
タイムスケジュール
以下、発表者・所属は敬称略で記載します。
時間 (JST) | 発表者 / セクション | 発表タイトル・内容 |
---|---|---|
13:00 – 13:05 | — | 開会の挨拶 |
13:05 – 13:15 | —(株式会社エクサウィザーズ) | 事業紹介 |
13:15 – 14:15 | 金子 卓弘 (日本電信電話株式会社) | 【招待講演】 光学・物理原理に基づく深層画像生成 |
14:15 – 14:30 | — | 休憩 |
14:30 – 15:00 | 金田 綾乃(エクサウィザーズ) | Matrix-Free Shared Intrinsics Bundle Adjustment (CVPR 2025) |
15:00 – 15:30 | 大隣 嵩(東京大学) |
Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models (CVPR 2025) (CVPR 2025 Best Paper Award Candidate) |
15:30 – 16:00 | 吉村 隆之 | Vision-based 3D Reconstruction for Navigation and Characterization of Unknown, Space-borne Targets |
16:00 – 16:15 | — | 休憩 |
16:15 – 16:45 | 堀江 正信(株式会社 RICOS) | Continuous Simplicial Neural Networks |
16:45 – 17:15 | 高山 健志(サイバーエージェント) | Variational Surface Reconstruction Using Natural Neighbors (SIGGRAPH 2025) |
17:15 – 17:45 | Niko Huang(東京大学) | Sparc3D: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling |
17:45 – 18:15 | 勝又 海(サイバーエージェント) | 3D Gaussian Splatting における派生プリミティブの設計 |
18:30 – 20:45 | — | 懇親会 |
connpassイベントページ: https://sainetwork.connpass.com/event/357555/
今回はいくつかの発表内容についてピックアップして簡単に紹介させていただきます。どの資料も非常に丁寧にわかりやすくまとまっていますので、ぜひ各スライド(以下の画像からリンクへとべます)もご覧ください。
1. 招待講演:光学・物理原理に基づく深層画像生成 (NTTコミュニケーション科学基礎研究所 金子さん)
招待講演にはNTT基礎研の金子さんをお招きし、ご登壇いただきました。
金子さんはCVPR 2025にてハイライトにも選ばれた Structure from Collisionでは、衝突時の変形から、従来のNeRFでは再現できなかった物体内部の空洞や構造を推定する物理制約付きNeRFの拡張モデルに関する研究を発表されており、光学と物理モデルを掛け合わせた研究をされています。
本講演では、深層生成モデルに“見た目だけでなく物理的な自然さ”を与えることを狙い、1. 最新の3Dの光学表現 2. 物理シミュレーション、 3. 拡散/ファウンデーションモデルの3つの系統をどのように統合できるかについて体系的なお話をしていただきました。
技術基盤のおさらいから、光学と物理の統合例、その拡張トピックまで網羅的に説明していただき、見た目と振る舞いを同時に自然にするプロセスについて最新の動向を追うことができます。
ぜひスライドをご覧ください。
質疑応答では多くの議論がなされました。
例えば、NeRFや3DGSは最終的にレンダリングした結果(画像)を出すことが目的のアプローチだと思うのですが、物理シミュレーションを目的とした場合も良い表現なのかという質問が上がりました。
それらの手法は主に画像ベースの入出力を想定して設計されているが、3次元表現として有用であり、シミュレーションに必要な構造の獲得や可視化に貢献できるのではないか、と回答されていました。
他にも動画生成モデルによる生成例は、成功例については、既に物理現象を理解している(ように見える)ものが多くあるように思えます。しかし、物理現象を陽に考慮しないアプローチは、データセットやモデルを大きくするだけではこれ以上の進化は難しいのか、との質問には、データやモデルサイズのスケーリングだけでは限界があるものの、時系列的に滑らかに遷移するような緩やかな物理制約を加えるなど、暗黙的な物理性の導入による進化の余地はまだある、と回答されていました。また、今後の進展には、物理現象を含む質の高いデータ整備も重要になるとの見解が示されました。
Matrix-Free Shared Intrinsics Bundle Adjustment (CVPR 2025)
2. 論文紹介:
著者 : Daniel Safari (Sony Semiconductor Solutions)
こちらは私エクサウィザーズの金田より解説させていただきました。
題材はSfMでおなじみのBundle Adjustment(BA)の高速化に関する論文です。
通常のSfMやSLAMでは、たとえ全カメラで同一の内部パラメータ(焦点距離や主点など)を使用していたとしても、最適化の際には各カメラごとに独立したパラメータとして扱われるのが一般的です。
本手法では、すべてのカメラが内部パラメータを共有、Shared Intrinsics と仮定することで、最適化対象のパラメータ数を削減しています。さらに、正規方程式を構成する行列をメモリ上に明示的に保持せず、必要な演算を逐次的に計算するMatrix-Freeなアプローチを採用することで、計算の高速化と大幅なメモリ消費の削減を実現しています。
BAで最も重たい処理は、巨大なHessian行列(特にランドマークとカメラパラメータの混合項)の生成と演算です。
本手法では、これらの行列を事前に構築せず、必要なときに逐次的に演算を行うMatrix-Free方式を採用しています。
このMatrix-Free化によって、特にGPU上での計算速度が飛躍的に向上し、行列を保持しないことでメモリ消費も大幅に削減されます。
Shared Intrinsicsという問題設定をうまく使い、メモリ削減と高速化を達成した非常に実用的な論文です。ぜひ一読ください。
Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models (CVPR 2025)
3. 論文紹介:
著者:
Jay Zhangjie Wu¹², Yuxuan Zhang¹, Haithem Turki¹, Xuanchi Ren¹³⁴, Jun Gao¹³⁴, Mike Zheng Shou², Sanja Fidler¹³⁴, Zan Gojcic¹, Huan Ling¹³⁴
(¹NVIDIA, ²Show Lab, National University of Singapore (NUS), ³ University of Toronto, ⁴Vector Institute)
こちらはCVPR 2025にてBest Paper Award Candidateにも選出された論文です。
東京大学山﨑研究室PhDの大隣さんに解説していただきました。
NeRFや3DGSで生じるアーティファクトを拡散モデルにおけるノイズとみなすことで高速に除去する手法です。
NeRFや3D Gaussian Splatting(3DGS)では学習画像の少ない領域や未知視点でレンダリング破綻(アーティファクト)が生じやすいという問題があります。
こうした破綻を拡散モデルのレタッチ能力で根本から緩和し、3D再構成全体の品質を底上げするパイプライン Difix3D+ を提案しています。
通常の拡散モデルはノイズから画像への復元を学習しますが、Difix3D+ はこのノイズを“アーティファクト”に置き換えて考え、除去タスクへと転用しています。
その際に採用しているのが、拡散過程を1ステップに蒸留したSD-Turboです。
質疑の際にはアルゴリズム的にはそこまで斬新とは言えないこの論文がどうしてBest Paper Award Candidateになったのかなどの議論がありましたが、結果が圧倒的に良いためではないかというような予想がされていました。
Continuous Simplicial Neural Networks
4. 論文紹介:
著者 : Aref Einizade¹, Dorina Thanou³, Fragkiskos D. Malliaros², Jhony H. Giraldo¹
(¹Télécom Paris, ²CentraleSupélec, ³EPFL)
この論文は、株式会社RICOSの堀江さんに解説していただきました。
こちらは、単体複体 (Simplicial Complex)と呼ばれる形状のトポロジーを離散的に表すデータ構造を用いたSNN(Simplicial Neural Networks) に関する論文となります。
3Dメッシュやロボティクス用マップには、点(0次単体)だけでなく 辺(1次)・面(2次)・四面体などの体積(3次) が織り成す 高次相互作用 が階層的に存在します。
ところが、従来のグラフニューラルネットワーク(GNN) は「ノードと一次エッジ」のみを前提としているため、こうした高次構造を 直接的に扱えず情報が欠落 しやすいという制約があります。
加えて、各レイヤで離散ラプラシアン拡散を繰り返す設計上、深層化すると 特徴が均質化(over-smoothing) し、判別能力が低下しがちです。
本研究は、これら2つの課題高次相互作用の欠落とover-smoothingを同時に解決するために、点・辺・面・体積を 単体複体(simplicial complex) として保持したまま学習できる新しいニューラルネットワークを提案しています。
このアイデアを用いて単体複体の各次元に対応させて定義した”Hodge Laplacian”と、その平滑化効果を定量化するDirichletエネルギーを導入し、構造ノイズに対する堅牢性やover-smoothingの制御などを数学的保証つきで説明しています。
発表では単体複体 (Simplicial Complex) の基礎知識から丁寧に説明されており、スライドは必見です。
質疑ではGNNよりも幾何的にリッチな情報を扱えるとのことで、その恩恵がどのように受けられるかといった話があり、3D形状認識や、それらの上の微分積分に関するものなど様々な汎用性について話が及んでいました。
Variational Surface Reconstruction Using Natural Neighbors (SIGGRAPH 2025 Journal Track)
5.論文紹介:
著者 : Jianjun Xia, Tao Ju (Washington University)
この論文はサイバーエージェントAI Labの高山さんに発表していただきました。
こちらは法線がない点群情報からのなめらかな3D閉局面の復元に関する論文です。
既存のVIPSSは、Hermite RBF + 変分最適化 の枠組みで点群全体を 1 つの巨大な方程式にまとめて解く一括解法を用いて、法線情報のない点群からなめらかな3D閉局面を再構成していました。
しかしこの方法では点が n 個あれば n × n の密行列をそのまま扱うことになり、計算時間もメモリ消費も O(n³) で急激に膨れ上がります。
そこで新しく提案されたNN-VIPSSでは同様にHermite RBF + 変分最適化 の枠組みを局所ブロック1-ring 近傍に分割して近似的に再利用し“小さな方程式” を個別に解き、その局所解を滑らかに貼り合わせて全体のサーフェスに仕立てる戦略によって、全体の計算量はほぼ線形スケールに近づけることに成功しました。
結果として、既存と同等の滑らかさと精度を保ったまま、数十万点規模の点群でも現実的な時間とメモリで処理可能となっています。
発表では手法の導出から丁寧に解説されており、非常に勉強になりました。
その他
他にもサイバーエージェントAI Labの勝又さん によるGaussian Splatting における派生プリミティブの設計では、3DGSにおける多様なプリミティブ設計により、精細かつ柔軟な形状・外観の再構成を実現している論文を網羅的に解説し、拡張プリミティブの分類と課題対応もまとめられています。
さらに、吉村さんによる宇宙空間での3D再構成に関する論文の紹介 Vision-based 3D Reconstruction for Navigation and Characterization of Unknown, Space-borne Targets (発表資料) や東京大学のNiko HuangさんによるSparc3D: Sparse Representation and Construction for
High-Resolution 3D Shapes Modelingの論文解説がありました。
特に宇宙空間での3D再構成に関する論文の質疑応答では、宇宙探査においては再構成の対象が、形も質感も質量分布も分からないため、地上で用いるような事前モデルが使えないという制約があります。さらには、LiDARやアクティブ深度カメラは質量・消費電力・信頼性の面で 小型宇宙機には搭載しにくいといった実用面の問題設定が話題となりました。
非常に興味深い問題設定で、質疑応答では、宇宙空間での現実的な解決案として人の介入がベースラインとなっているなど、さまざまな議論が交わされていました。
総じて多岐にわたる題材の優秀な方々の丁寧な発表を見ることができ、質疑応答、その後の懇親会含めて非常に勉強になる1日でした。
次回は秋頃に関西での開催が計画されているようです。ぜひ参加してみてはいかがでしょうか?
おまけ
また以下に内部勉強会の資料をいくつか貼らせていただきます。
各自1時間発表でみっちりと解説されているのでおすすめです。
DUSt3R, MASt3R, MASt3R-SfM にみる3D基盤モデル(CVPR 2024)
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models (CVPR 2025)
CV・CG・ロボティクスのためのリー群・リー代数入門
Spatial AI NetworkのSpeaker Deckに第1回の外部勉強会、内部勉強会の発表スライドも上がっていますので是非ご覧ください。
Discussion