🦾

Deepで経路計画成功率90%越え Neural MPを理解する

に公開

Neural MP: A Generalist Neural Motion Planner 論文メモ

tags: 論文読み

なぜこの論文を選んだか

  • IROS2025に参加した方から,お前は絶対これ読んだ方が良いと言われた
  • 内容も興味あるものだったので読んで簡単にまとめる

一言でいうと

「大規模シミュレーションで“専門家プランナ”を模倣した汎用ニューラル方策」を作り、推論時に軽量な最適化(衝突点数最小化)で安全側に寄せることで、未知の実環境でも高速・高成功率に動作するモーションプランナ。

論文リンク

著者/所属機関

  • 著者: Murtaza Dalal*, Jiahui Yang*, Russell Mendonca, Youssef Khaky, Ruslan Salakhutdinov, Deepak Pathak
  • 所属機関: Carnegie Mellon University

以下、「著者/所属機関」欄にそのまま貼れる形で、(1) 顔画像幅を4倍(= 400px)に変更し、(2) 略称メモを追記し、(3) 各リンクに実際にアクセスして役職・所属・研究内容が書かれていることを確認した上で内容を更新しました。
(※LinkedIn/Threads はクローラ制限や 429 等で取得できないことがあるため、CMU公式ページ/個人ページ/arXiv/学会・イベント公式ページ/Reuters等の“開ける一次情報寄り”で裏取りしています。)


著者/所属機関

  • 著者: Murtaza Dalal, Jiahui Yang, Russell Mendonca, Youssef Khaky, Ruslan Salakhutdinov, Deepak Pathak
  • 所属機関(論文時): Carnegie Mellon University

著者紹介

ご尊顔 お名前 一言で 有名な研究 今なにやってるか リンク
Murtaza Dalal Tesla AI(Optimus) のRobotics ML Engineer。CMU RIでRobotics PhD修了 Optimus(TAMPを模倣するVisuomotor Transformer, CoRL 2023)
Plan-Seq-Learn(LLM×長期タスクRL, ICLR 2024)
Neural MP(本論文)
個人ページ記載では、Tesla AIのOptimusチームでロボット学習/計画系に従事。 profile
Optimus
Plan-Seq-Learn(arXiv)
Neural MP(arXiv)
Jiahui (Jim) Yang CMU RIのGraduate researcher(RI公式では MSR Student / Research Assistant)。大規模シミュレーション×IL/RLでロボ学習。 Deep Reactive Policy (DRP)(動的環境のリアクティブMP, arXiv 2025)
Neural MP(本論文)
個人ページ記載では、simulationをスケールさせてデータ駆動のロボ学習(模倣学習・強化学習、モーションプランニング/デクスタラス操作)に注力。 profile
CMU RI profile
DRP(arXiv)
Neural MP(arXiv)
Russell Mendonca Google DeepMindのResearch Scientist動画事前学習/人間動画/世界モデルなど、マルチモーダルAI×ロボに注力。 Affordances from Human Videos (VRB)(CVPR 2023)
Structured World Models from Human Videos (SWIM)(RSS 2023)
Neural MP(本論文)
個人ページ記載では、DeepMindでmultimodal AI for robotics。また過去に TeslaのOptimus AIでプロジェクトリード経験あり。 profile
VRB (CVPR’23)
SWIM (RSS’23)
Neural MP(arXiv)
Youssef Khaky CMU NREC所属のRobotics Engineer II(RI公式)。Biorobotics Labに所属表記。 Neural MP(本論文)
DRP(arXiv 2025)
RI公式プロフィール記載では、NRECのRobotics Engineer IIとして従事(オフィス表記もNREC)。 CMU RI profile
Neural MP(arXiv)
DRP(arXiv)
Ruslan Salakhutdinov CMU Machine Learning DeptのUPMC Professor。研究興味は Deep Learning/PGM/大規模最適化。また複数の講演/イベント公式プロフィールで **MetaのVP of Research(Generative AI)**表記。 Deep Boltzmann Machines(AISTATS 2009) CMUで機械学習研究・教育。加えて、講演/イベント公式プロフィールでは MetaのVP of Researchとして活動と記載。 CMU page
Deep Boltzmann Machines (PMLR)
ICTWEEK speaker page
UCSD GenAI Summit schedule
UW-La Crosse poster(PDF)
Deepak Pathak CMUのRaj Reddy Assistant Professor(RI)。CV×ML×Roboticsの交差領域。個人ページで Skild AIのCo-Founder & CEOと明記(ReutersでもCEO発言として引用)。 Curiosity-driven Exploration(2017)
(近年はSkild AIでロボ向け基盤モデルも)
CMUで研究室主宰。加えて、個人ページ記載では Skild AIで“any robot, any task, one brain” を目標に開発。Reuters記事でもCEOとしてコメント。 CMU personal page
CMU RI profile
Curiosity(arXiv)
Reuters (Skild AI)
  • TAMP: Task and Motion Planning(タスク計画+運動計画を統合して解く枠組み)
  • CMU RI: Carnegie Mellon University Robotics Institute
  • CMU NREC: Carnegie Mellon University National Robotics Engineering Center(RI配下のセンター)
  • VP: Vice President(副社長/担当領域の責任者クラスの役職)

学会/投稿年

技術や手法のキモは?

お題

点群観測から、未知の複雑環境でも高速・高成功率に衝突回避しつつ (q)(g) を達成する汎用ニューラルモーションプランナを実現する。

  • Input
    • 点群(セグメント済み):ロボット点群 (\mathrm{PCD}_{q_t})障害物点群 (\mathrm{PCD}_O)ゴール(目標)ロボット点群 (\mathrm{PCD}_g)

      • 補足(ゴールロボットのセグメント点群とは?)
        (\mathrm{PCD}_g) は「目標関節角 (g) におけるロボット形状」を点群化したもの(ロボットメッシュから点をサンプルし、順運動学(FK)で (g) の姿勢に変換して得る点群)で、入力点群の中に“目標状態のロボット”を明示的に含めるための表現。
        ※この表現自体は MπNets 系の設計(ロボット点群・目標ロボット点群・障害物点群)を踏襲している。
    • 現在関節角 (q_t)、目標関節角 (g)

  • Output
    • 次の関節角への増分 (\Delta q_{t+1}) の多峰性分布(GMM)からサンプルしたアクション、またはロールアウト+TTOで選択した軌道

提案手法

  • 大規模シミュレーションで、(1) 手続き生成+Objaverseメッシュで複雑シーンを大量生成し、(2) サンプリングベースの専門家(AIT*)の軌道を収集・整形して模倣学習し、(3) 推論時にSDFで衝突点数を評価して“良い候補軌道”を選ぶ軽量最適化(TTO)を組み合わせる。
  • 全体像(データ生成→学習→推論時最適化の3段):

先行研究と比べてなにがすごい?

従来研究へのツッコミ

  • 既存のモーションプランニングはテスト時に毎回“ゼロから”探索/最適化しがちで、複雑環境では遅い(分単位も)一方、人間は経験を活かし数秒で到達できる、という問題設定。
  • 先行の学習型(例:MπNets)よりも、(i) より多様で現実に近いデータ生成、(ii) より表現力の高いアーキテクチャ+多峰性出力、(iii) 推論時最適化で安全性を上げる、を強化している。

従来研究と対比した本手法

  • 汎用性(generalist) :100万シーン規模の多様データで、未学習の実環境・物体配置でもゼロショットで動くことを狙う。
  • 多峰性の扱い:サンプリング系プランナの軌道が多峰性になる点を、GMM+NLLで素直にフィット。
  • 安全側の推論:方策だけでなく、SDFベースの衝突評価で100本ロールアウトから“衝突が少ない”軌道を選択。

どうやって有効だと検証した?

  • 実ロボット(Franka Panda)+RealSense 4台の点群で、4環境×多数構成の計64タスクを評価し、サンプリング/最適化/学習系のSOTAより成功率を改善(+23%, +17%, +79%)。

  • Free-hand(手ぶら)では、提案法が平均成功率 95.83%(Bins/Shelf/Articulatedで100/100/87.5)で最良。比較として AIT*-80s: 72.92%、Curobo: 79.17%、MπNets: 16.67%(Table I)。-Base Pocilyは,TTOなし版.各4シーン,4スタートゴールで16試行.

  • 追加分析では、提案法は平均プラン時間3.9sで成功率95.83%、安全違反率4.2%(MπNetsはプラン1.0sだが成功16.67%、安全違反18.75%)(Table III)。表右に,計算時間と安全違反率(衝突 / 関節リミット / トルクリミットエラー)をマージしたもの

  • In-hand(把持物あり)でも、TTOやObjaverseデータの有効性を示し、提案法が成功率を大きく改善(Table IV)。

  • 動的障害物でも、クローズドループ+単ステップTTOで 63.33%(MπNetsは10%)などを報告。

  • シミュレーションの既存ベンチ(MπNetsデータセット5400問)でもSOTA(Table II)。(MπNETより補足: 各エキスパートの設定,Global:C-space で完全探索 → 強いが遅く不安定.Hybrid:Task-space で道を引いて局所制御 → 速くて綺麗だが万能ではない)

  • 評価シーン例(Fig. 9、16シーン画像)。

議論はある?

  • 著者の限界として:点群品質に弱い(NeRF等のより良い3D表現が将来案)、タイトスペースがまだ苦手(RL微調整の可能性)、推論時最適化の分だけ“方策単体”より遅い(学習型衝突判定で高速化余地)。
  • 実機の衝突判定は点群+球近似SDFで高速だが、タイトスペースでは精度不足が起こり得る旨も記述。

次に読むべき論文は?

  • MπNets(Motion Policy Networks): 手続き生成+実機転移の代表。
  • MPNet(Motion Planning Networks): 学習prior+探索の系譜。
  • EDMP(拡散モデル系モーションプランナ): 学習ベース比較対象。
  • Curobo: GPU並列最適化ベースの高速モーション生成。
  • AIT*(Adaptively Informed Trees): 専門家として利用したサンプリングベース。
  • 学習型衝突判定(Cabinet / learned implicit collision): TTO高速化の方向性。

感想

  • 理論的な新規性はあまりないかもしれない
  • しかし,産業界の人間として,成功率を順当に頑張る研究に感銘
  • Ablationや実機実験もモリモリにやっていてすごい
  • 障害物配置はバリエーションが多い一方で,生成すべき動作への影響が大きい.よって,Diffusion Policy において障害物を条件付けする場合でも,TTO のような後段の最適化(ポストプロセス)を入れたり,生成途中にポテンシャル法に基づく反発項を加えたりするなど,ニューラルネットワークの出力をそのままは信頼しない設計が依然として採られている.これは、深層学習を用いた計画・制御が抱える限界の一端を示しているように思われる

(出典: Neural MP: A Generalist Neural Motion Planner, arXiv:2409.05864v1)


技術的詳細

(※式中心に、要素技術ごとに順を追って整理)

要素技術1: 大規模データ生成(手続き生成+Objaverse)とシーン配置アルゴリズム

1. 目標

「現実に近い複雑さ・多様さ」を持つ障害物シーンを、人手設計なしで大量生成し、汎用方策の学習データを作る。

2. パラメトリック資産(プリミティブ)生成の定式化

補足: 論文中の “parametrically variable categories / parametric assets” は「パラメータ可変アセット(=パラメトリック資産) 」のニュアンス。ここでは元の表現(パラメトリック資産)を維持しつつ、「シーンに置くアセット(障害物部品)」の意味だと分かるよう補足している。

  • 6カテゴリ(shelves, cubbies, microwaves, dishwashers, open boxes, cabinets)の手続き生成。
  • 各カテゴリインスタンス gN 個の直方体(cuboid)の集合:
g=\{x_0,\dots,x_i,\dots,x_N\}

で表され、カテゴリ制約 C(g) を満たす。

補足: x_i(各 cuboid)を「9DoF(位置3+姿勢3+サイズ3)の9次元ベクトル」と明記はしていない(論文記載なし) 。論文は x_i を “cuboid object” として扱い、カテゴリ生成パラメータ p の側でサイズ・相対位置・関節軸などを指定する、と説明している。

  • 生成関数はカテゴリ固有のパラメータ p を入力し、制約を満たす直方体集合を出す:
X(p)=\{x_0,\dots,x_N\}\ \text{s.t.}\ C(X(p))

ここで p は各直方体のサイズ・相対位置・関節(開閉軸)などを規定。
(例:電子レンジなら壁の高さ一致+ヒンジドア、など)

補足: アルゴリズム(Alg.1)ではカテゴリ g ごとの生成器として X_g(p) の形で書かれており、上の X(p) は「カテゴリに応じて切り替わる生成関数」の総称、と理解すると混乱しにくい。

3. Objaverseメッシュの導入(現実物体形状のカバー)

  • 直方体プリミティブだけでは日用品の形状分布を覆えないため、Objaverseからメッシュをサンプルして混ぜる。
  • サンプル位置はタスク関連領域(棚の段間、キュビー内、キャビネット内など)に条件づけ。
  • ハイパラ例(scale range等)は 論文Table VII を参照。

補足: 「Objaverseメッシュ=いろんな日用品のメッシュ?」については概ねその理解でOK。論文中でも comic books / jars / record players / caps 等の例が挙げられており、**ロボットが遭遇しうる多様な“日常物体(に近い)3Dメッシュ群”**を混ぜる目的。
ただし厳密には「日用品に限定」とは言い切らず、「多様な3Dオブジェクト」ぐらいの理解が安全。
キュビーは棚やキャビネットの中にある“小さな区画”の意味

4. “衝突が増えるほど破綻する”拒否サンプリングを回避:有効衝突法線での逐次配置

単純な rejection sampling は、物体数が増えるほど衝突確率が上がり現実的でないため、次の手順で配置を安定化する。

  • シーン S に新規資産 x\sim X_g(p) を置きたい。

補足: ここでの「シーン」は論文アルゴリズム(Alg.1)の変数 S(配置済みアセット集合) そのもの。初期化で S=\{\} から始め、アセットを追加していって最後に “yield scene S” する。

  • 衝突チェッカ Q(S,x) が true(衝突)なら、既存資産 s_i\in S との衝突法線 n_i を計算し、合成法線
n=\sum_i n_i

を作る。

  • パラメータ p を更新して、生成物の中心が n 方向にシフトするように調整し、衝突がなくなるまで繰り返す。

補足: 「障害物が空間的に被るとリアルっぽくないので、被らないようにする意味?」→ 結果として“被り(衝突)を解消する”ので理解としては合っている。
ただし論文の主な狙いは (i) rejection sampling がスケールしない問題を回避し、(ii) “衝突しにくい=物体が少ない” 方向への
バイアス
を避け、複雑で密なシーンも効率よく生成すること。

  • 擬似コード

    擬似コードは論文 Alg.1(Procedural Scene Generation)を参照。

補足: 記号が紛らわしい点として、Alg.1 では「最大オブジェクト数」を K と置いているが、後述のTTO式(1)でも K が出てくる(こちらは障害物点群の点数)。別物なので混同注意。


要素技術2: 専門家軌道(AIT*)収集と学習しやすいデータへの変換

1. 専門家としてのサンプリングベースプランナ

  • 多様タスクへ適用しやすいことから、専門家に AIT* を採用(シミュレーションでは完全な衝突判定が使える)。

補足: 「AIT*でも有限時間だと最適から遠いのでは?」→その通りで、論文は“高品質なプラン”を大量に集める立場。データ生成時の計画時間は Table VII で 20〜80秒(min/max)とされ、さらに tight-space to tight-space は 最大120秒かかることがある、とAppendixで言及されている。
したがって、漸近最適性の理論よりも、有限時間での“使える教師軌道”収集が主眼。

補足: 「AIT*のコスト関数に障害物から遠ざかる(クリアランス最大化)等が陽に入っている?」→ この論文内ではコスト関数の詳細を明記していない(論文記載なし) 。少なくとも本文で強調されているのは「perfect collision checker による collision-free 制約」で、クリアランス項の有無までは読み取れない。

2. “タイトスペース”を意図的に増やすスタート/ゴールの作り方

  • 障害物回避が必要な状況を増やすため、エンドエフェクタ姿勢をキュビー/電子レンジ内部等からサンプルし、IKで関節姿勢を作る。
  • タイトスペース構成は50%でサンプルし、直線で済む簡単軌道に偏らないようにする。

補足: 「50%でサンプル」の意味(言い換え)
スタート/ゴール生成のとき、半分(50%)の確率で“棚の内側・キュビー内・電子レンジ内部など狭所”からEE姿勢をサンプルし、IKで q_0g を作る
これにより、データが「近い自由空間同士の直線移動」ばかりにならず、障害物回避が必要な軌道(tight-space系)が十分含まれるようにする、という意図。

3. In-hand(把持物あり)データの導入とランダム化

  • エンドエフェクタ間に物体をスポーンし、計画中は把持物をロボットの一部として扱う(視覚観測・衝突判定の両方)。
  • 物体は箱/円柱/球やObjaverseから、スケールは最長辺3〜30cm、初期位置はグリッパ中心近傍5cm立方でランダム化。

補足: 「ロボットは把持物を認識できる?NNにはどう入る?」

  • シミュレーションでの学習・データ生成では、把持物を「ロボットの一部」として扱い、衝突判定視覚観測(点群セグメンテーション) の両方に含める。
  • Appendix(Network training details)でも、in-handでは **“object in-hand をロボットの一部として segmentation に含める”**と書かれているため、NN入力としては基本的に ロボット点群側(ロボット点群/目標ロボット点群)に把持物点群が含まれる設計。
  • 一方、実機で把持物をどう同定して(形状/姿勢)セグメントへ入れるかの具体手法は論文記載なし。また実機in-hand評価は「物体はすでに把持されている」と仮定している(把持認識・把持計画は範囲外)。

4. 重要:専門家の疎なウェイポイント問題 → スムージング

AIT*の出力はウェイポイント間が離れがちで「大きなアクションジャンプ+データの疎密」が生じ、模倣学習が難しい。
そこで、三次スプライン補間(cubic spline interpolation)で速度・加速度制約を守りつつ軌道を滑らかにする。
実装例として、MπNets由来の固定50ステップ+最大間隔0.1radのスムージングが言及されている。

補足: 「固定50ステップ」とは、スムージング後の軌道を **“時間方向に50個の遷移(50 timesteps)へ再サンプリングして固定長系列にそろえる”**こと。加えて max spacing 0.1 rad で、1ステップあたりの関節変化が大きくなりすぎないようにする意図。

5. スループット改善(Appendix)

  • Hindsight relabeling:解けない/近似解のときでも、実行終端状態をゴールとして付け替える。
  • Reversibility:衝突無し経路は逆向きにも使えるので、反転して \Delta q を再計算しデータ倍増。

要素技術3: 観測設計(点群+関節)とネットワーク(PointNet+++LSTM+GMM)

1. 観測(sim2realを意識)

  • 点群はロボット基準座標に根ざし視点非依存で、sim/realの整合が取りやすいという立場。
  • 観測は「点群 PCD +現在関節 q_t +目標関節 g」。
  • さらに MπNets に倣い、点群を (i) ロボット点群 (ii) 障害物点群 (iii) 目標ロボット点群 にセグメントして使う。
  • MπNetsとの差分として「目標関節 g を明示的に条件付け」「EE姿勢ではなく関節角を条件付け」などを強調。

補足: 「ゴールロボットのセグメント点群」とは?
(iii) の 目標ロボット点群は、目標関節角 g におけるロボット形状を点群化したもの。論文では、ロボットのメッシュ表現に対して forward kinematics(順運動学)g の姿勢へ変換し、**“target robot point cloud”**としてシーン点群に“置く”と説明している。
これにより、点群側からも「目標状態がどこか」を表現できる(ただし本手法ではそれに加えて g ベクトルも入れる)。

補足: 点数の目安(ハイパラ)
論文Table VIIIでは、Robot / Goal point-cloud が各2048点、Obstacle point-cloud が4096点

補足: 「目標関節 g を明示的に条件付け」= g をベクトルとして入力に入れる(後段で q_t, g をMLPで埋め込み、点群埋め込みと連結してLSTMへ)。

補足: そのメリットは?(論文の書き方)
Appendixでは「MπNetsとの差分」として、(1) ターゲット関節角に条件付ける、(2) EE pose ではなく関節角に条件付ける、の2点が “overall target configuration への adherence 改善”につながったと述べる。
さらに Ablation で qg の両方が重要(どれかを抜くと大幅に性能低下)を示し、理由は「proprioception が正しい \Delta q の richer signal を与えるのでは」という仮説(=深い理論解析までは少なく、実験+仮説が中心)。

2. エンコードと系列モデル

  • 点群エンコーダ:PointNet++。
  • (q_t, g) はMLPで埋め込み。
  • 埋め込みを連結してLSTMへ入力、履歴長は2(seq length 2)。
  • 参考:ハイパラは 論文Table VIII(GMM 5モード、LSTM 1024 hidden/2層 等)。

3. 出力分布:GMMで多峰性を表現

サンプリングベース専門家は同じ条件でも複数経路を出す(多峰性)ため、単一回帰より分布が必要。

  • 方策は \Delta q_{t+1} のGMMを出力し、次の目標関節を
q_{t+1} = q_t + \Delta q_{t+1}

で更新。

  • 学習はGMMの負の対数尤度(NLL)を最小化し、PointMatchやDiffusion等より良かったと報告。
  • Ablationでも、GMMがL2/L1/PointMatchより良い(+7%, +12%, +24%)と述べる。
  • 観測要素では qg の両方が重要(片方/両方なしで大幅性能低下)。

補足: NLL(負の対数尤度)とは?
NLL = Negative Log-Likelihood。ざっくりは「教師 \Delta q が、モデルの出力分布(ここではGMM)の下でどれだけ“起こりやすいか”」のマイナス対数。
例(一般形):

\mathcal{L}_{NLL} = -\log p(\Delta q \mid \text{observation})

※GMMの具体式展開自体は一般知識だが、論文の説明は「GMMのNLLで学習する」というレベル。


要素技術4: 推論時最適化(Test-time Optimization; TTO)— “SDFで衝突点数が少ない軌道”を選ぶ

1. 背景:ニューラル方策の安全性

方策単体だと微小衝突が起こり得るため、実機投入時に安全側へ寄せたい。

補足: 論文Table I の用語対応

  • Ours-Base Policy:学習済み方策をそのまま使う版(TTOなし、本文では「1s planning time」と説明)
  • Ours:TTOで候補軌道から衝突の少ないものを選ぶ版(本文では「3s planning」と説明、Appendixの詳細表では平均3.9sなど)

2. 近似前向きモデル(線形モデル)

  • 世界状態 s=[q,e]e: 環境状態)とし、方策の予測アクション \hat a を使って
s'=[q+\hat a, e]

と更新する単純モデルを仮定(障害物は動かない・コントローラで目標WPに正確に到達できる)。

3. 候補軌道のサンプリング

  • 初期点群(障害物表現)を固定して方策をロールアウトし、N 本の軌道 \tau\sim\rho_{\pi_\theta} を得る。
  • 実装では100本から選ぶ。

補足: ここでの NTTOでサンプルする候補軌道の本数で、論文は 100 trajectories と明記している。

4. 目的関数:障害物点群の“侵入点数”を最小化

障害物点群 PCD_O={PCD_O^k}_{k=1}^K(最大 K=4096)に対し、ロボットのSDFが閾値 \varepsilon 未満の点の数を数える。

論文の最適化目的(Eq. (1)):

\min_{\tau\sim\rho_{\pi_\theta}}\ \sum_{t=1}^{T}\sum_{k=1}^{K}\mathbf{1}{SDF_{q_t}(PCD_O^k)<\varepsilon} \tag{1}

  • 直感:点群のうちロボット内部(または近傍)に入ってしまう点が少ない軌道を選ぶ。
  • Fig.5 の分析では、100軌道中25%が完全非衝突で、その集合から選ぶ様子を示している。
  • 逆に言えば,TTOなかったら75%どこかしらぶつかるという意味

補足: Appendixの Table III(追加分析)は、Table I に対して

  • 平均 planning time(open-loop)
  • safety violation rate(衝突・関節リミット・トルクリミットエラー)
    を追加したもの、という位置づけ。

要素技術5: 実機での点群処理・衝突判定(球近似SDF)とオープンループ実行

1. 実機観測パイプライン

  • Franka Panda+RealSense 4台で点群を統合し、crop/denoise/subsampleして4096点を入力に使う。

2. ロボット形状の近似:球の集合

メッシュSDFは遅いので、ロボットを球で近似して高速化:

  • 56個の球、半径2〜10cm。

補足: 論文ではこの球近似は conservative(ロボットメッシュを包む) に作られ、セグメンテーション(ロボット点除去)で安全側に倒す意図がある、と説明されている。

3. 球SDFとセグメンテーション

  • 球中心 C、半径 r のとき、論文中では点 x のSDFを
SDF(x)=|x-C|_2 - r

(本文表記は |x-C|_2 - r 相当)として高速計算できるとする。

  • しきい値 \varepsilon=1\text{cm} 未満の点をロボット点として除去し、障害物点群を得る。

4. 実機衝突判定

  • 障害物点群の中に (SDF<1\text{cm}) があれば衝突とみなす。
  • 注意:クローズドループだと“毎ステップで近傍点を除去する”ため、この方法は衝突を見逃す可能性がある、と明示。

補足: ここでの注意は「物理的に障害物を無視できる」という意味ではなく、
**点群ベースの衝突チェッカが、各ステップでロボット近傍点を消し続けるため、結果として“常に collision free と判定してしまう(判定が無力化される)”**という意味。
(=現実世界で本当に安全になるわけではない、という注意。)

5. オープンループロールアウト(Alg.2)

推論時は、方策を線形モデルでロールアウトして軌道 \tau を作り、最後にまとめて実行する。

アルゴリズム(要点):

  • 初期点群:
PCD_0 \leftarrow S(PCD_{full}) \cup PCD_{q_0}\cup PCD_g

補足: ここでの S(\cdot)segmentor(セグメンテーション関数)
具体的には、実測の scene point cloud PCD_{full} から、球SDFを使ってロボット点を除去し、障害物点群を得る処理を表している。

補足: PCD_g(目標ロボット点群)は、ロボットメッシュ点群を事前サンプルし、FKで g に変換してシーンに配置する(現在ロボット点群 PCD_{q_0} も同様)。

  • 時刻 t の更新:
a_t \sim \pi_\theta(q_{t-1}, PCD_{t-1}, g),\quad q_t \leftarrow q_{t-1}+a_t
  • 点群更新(ロボット点群だけ差し替えるイメージ):
PCD_t \leftarrow (PCD_{t-1}\setminus PCD_{q_{t-1}})\cup PCD_{q_t}
  • 擬似コードは論文Alg. 2を参照

要素技術6: 学習・計算スケール(再現に効く数値)

  • データ収集:2K CPUクラスタで並列化し、100万軌道を約3.5日で収集。
  • 学習:20M param、PointNet++ 4M+LSTM 16M、GMM 5モード。
  • 最適化:NLLで4.5M step、4090 GPUで約2日(batch 16)。
  • 重要ハイパラ(例:tight space比率50%、計画時間20〜80s等)は Table VII を参照。

補足: ここでの「最適化」は 学習(training)の最適化の意味(=NNパラメータを勾配法で更新)。
論文には test-time optimization(TTO) という別の“最適化”も出てくるので、

  • 要素技術6の最適化=学習
  • 要素技術4の最適化=推論時最適化(TTO)
    と区別すると混乱しにくい。

Discussion