Deepで経路計画成功率90%越え Neural MPを理解する
Neural MP: A Generalist Neural Motion Planner 論文メモ
tags: 論文読み
なぜこの論文を選んだか
- IROS2025に参加した方から,お前は絶対これ読んだ方が良いと言われた
- 内容も興味あるものだったので読んで簡単にまとめる
一言でいうと
「大規模シミュレーションで“専門家プランナ”を模倣した汎用ニューラル方策」を作り、推論時に軽量な最適化(衝突点数最小化)で安全側に寄せることで、未知の実環境でも高速・高成功率に動作するモーションプランナ。
論文リンク
- プロジェクトページ
- まずは↑の動画を見て,どんな感じかをつかむのがおすすめ
著者/所属機関
- 著者: Murtaza Dalal*, Jiahui Yang*, Russell Mendonca, Youssef Khaky, Ruslan Salakhutdinov, Deepak Pathak
- 所属機関: Carnegie Mellon University
以下、「著者/所属機関」欄にそのまま貼れる形で、(1) 顔画像幅を4倍(= 400px)に変更し、(2) 略称メモを追記し、(3) 各リンクに実際にアクセスして役職・所属・研究内容が書かれていることを確認した上で内容を更新しました。
(※LinkedIn/Threads はクローラ制限や 429 等で取得できないことがあるため、CMU公式ページ/個人ページ/arXiv/学会・イベント公式ページ/Reuters等の“開ける一次情報寄り”で裏取りしています。)
著者/所属機関
- 著者: Murtaza Dalal, Jiahui Yang, Russell Mendonca, Youssef Khaky, Ruslan Salakhutdinov, Deepak Pathak
- 所属機関(論文時): Carnegie Mellon University
著者紹介
| ご尊顔 | お名前 | 一言で | 有名な研究 | 今なにやってるか | リンク |
|---|---|---|---|---|---|
![]() |
Murtaza Dalal | Tesla AI(Optimus) のRobotics ML Engineer。CMU RIでRobotics PhD修了。 |
Optimus(TAMPを模倣するVisuomotor Transformer, CoRL 2023) Plan-Seq-Learn(LLM×長期タスクRL, ICLR 2024) Neural MP(本論文) |
個人ページ記載では、Tesla AIのOptimusチームでロボット学習/計画系に従事。 |
profile Optimus Plan-Seq-Learn(arXiv) Neural MP(arXiv) |
![]() |
Jiahui (Jim) Yang | CMU RIのGraduate researcher(RI公式では MSR Student / Research Assistant)。大規模シミュレーション×IL/RLでロボ学習。 |
Deep Reactive Policy (DRP)(動的環境のリアクティブMP, arXiv 2025) Neural MP(本論文) |
個人ページ記載では、simulationをスケールさせてデータ駆動のロボ学習(模倣学習・強化学習、モーションプランニング/デクスタラス操作)に注力。 |
profile CMU RI profile DRP(arXiv) Neural MP(arXiv) |
![]() |
Russell Mendonca | Google DeepMindのResearch Scientist。動画事前学習/人間動画/世界モデルなど、マルチモーダルAI×ロボに注力。 |
Affordances from Human Videos (VRB)(CVPR 2023) Structured World Models from Human Videos (SWIM)(RSS 2023) Neural MP(本論文) |
個人ページ記載では、DeepMindでmultimodal AI for robotics。また過去に TeslaのOptimus AIでプロジェクトリード経験あり。 |
profile VRB (CVPR’23) SWIM (RSS’23) Neural MP(arXiv) |
![]() |
Youssef Khaky | CMU NREC所属のRobotics Engineer II(RI公式)。Biorobotics Labに所属表記。 |
Neural MP(本論文) DRP(arXiv 2025) |
RI公式プロフィール記載では、NRECのRobotics Engineer IIとして従事(オフィス表記もNREC)。 |
CMU RI profile Neural MP(arXiv) DRP(arXiv) |
![]() |
Ruslan Salakhutdinov | CMU Machine Learning DeptのUPMC Professor。研究興味は Deep Learning/PGM/大規模最適化。また複数の講演/イベント公式プロフィールで **MetaのVP of Research(Generative AI)**表記。 | Deep Boltzmann Machines(AISTATS 2009) | CMUで機械学習研究・教育。加えて、講演/イベント公式プロフィールでは MetaのVP of Researchとして活動と記載。 |
CMU page Deep Boltzmann Machines (PMLR) ICTWEEK speaker page UCSD GenAI Summit schedule UW-La Crosse poster(PDF) |
![]() |
Deepak Pathak | CMUのRaj Reddy Assistant Professor(RI)。CV×ML×Roboticsの交差領域。個人ページで Skild AIのCo-Founder & CEOと明記(ReutersでもCEO発言として引用)。 |
Curiosity-driven Exploration(2017) (近年はSkild AIでロボ向け基盤モデルも) |
CMUで研究室主宰。加えて、個人ページ記載では Skild AIで“any robot, any task, one brain” を目標に開発。Reuters記事でもCEOとしてコメント。 |
CMU personal page CMU RI profile Curiosity(arXiv) Reuters (Skild AI) |
- TAMP: Task and Motion Planning(タスク計画+運動計画を統合して解く枠組み)
- CMU RI: Carnegie Mellon University Robotics Institute
- CMU NREC: Carnegie Mellon University National Robotics Engineering Center(RI配下のセンター)
- VP: Vice President(副社長/担当領域の責任者クラスの役職)
学会/投稿年
- IROS 2025 Best Student Paper Award Winner
- arXiv preprint(cs.RO), 2024-09-09
技術や手法のキモは?
お題
点群観測から、未知の複雑環境でも高速・高成功率に衝突回避しつつ
-
Input
-
点群(セグメント済み):ロボット点群
、障害物点群(\mathrm{PCD}_{q_t}) 、ゴール(目標)ロボット点群(\mathrm{PCD}_O) (\mathrm{PCD}_g) -
補足(ゴールロボットのセグメント点群とは?) :
は「目標関節角(\mathrm{PCD}_g) におけるロボット形状」を点群化したもの(ロボットメッシュから点をサンプルし、順運動学(FK)で(g) の姿勢に変換して得る点群)で、入力点群の中に“目標状態のロボット”を明示的に含めるための表現。(g)
※この表現自体は MπNets 系の設計(ロボット点群・目標ロボット点群・障害物点群)を踏襲している。
-
補足(ゴールロボットのセグメント点群とは?) :
-
現在関節角
、目標関節角(q_t) (g)
-
-
Output
- 次の関節角への増分
の多峰性分布(GMM)からサンプルしたアクション、またはロールアウト+TTOで選択した軌道(\Delta q_{t+1})
- 次の関節角への増分
提案手法
- 大規模シミュレーションで、(1) 手続き生成+Objaverseメッシュで複雑シーンを大量生成し、(2) サンプリングベースの専門家(AIT*)の軌道を収集・整形して模倣学習し、(3) 推論時にSDFで衝突点数を評価して“良い候補軌道”を選ぶ軽量最適化(TTO)を組み合わせる。
- 全体像(データ生成→学習→推論時最適化の3段):
先行研究と比べてなにがすごい?
従来研究へのツッコミ
- 既存のモーションプランニングはテスト時に毎回“ゼロから”探索/最適化しがちで、複雑環境では遅い(分単位も)一方、人間は経験を活かし数秒で到達できる、という問題設定。
- 先行の学習型(例:MπNets)よりも、(i) より多様で現実に近いデータ生成、(ii) より表現力の高いアーキテクチャ+多峰性出力、(iii) 推論時最適化で安全性を上げる、を強化している。
従来研究と対比した本手法
- 汎用性(generalist) :100万シーン規模の多様データで、未学習の実環境・物体配置でもゼロショットで動くことを狙う。
- 多峰性の扱い:サンプリング系プランナの軌道が多峰性になる点を、GMM+NLLで素直にフィット。
- 安全側の推論:方策だけでなく、SDFベースの衝突評価で100本ロールアウトから“衝突が少ない”軌道を選択。
どうやって有効だと検証した?
-
実ロボット(Franka Panda)+RealSense 4台の点群で、4環境×多数構成の計64タスクを評価し、サンプリング/最適化/学習系のSOTAより成功率を改善(+23%, +17%, +79%)。
-
Free-hand(手ぶら)では、提案法が平均成功率 95.83%(Bins/Shelf/Articulatedで100/100/87.5)で最良。比較として AIT*-80s: 72.92%、Curobo: 79.17%、MπNets: 16.67%(Table I)。-Base Pocilyは,TTOなし版.各4シーン,4スタートゴールで16試行.

-
追加分析では、提案法は平均プラン時間3.9sで成功率95.83%、安全違反率4.2%(MπNetsはプラン1.0sだが成功16.67%、安全違反18.75%)(Table III)。表右に,計算時間と安全違反率(衝突 / 関節リミット / トルクリミットエラー)をマージしたもの

-
In-hand(把持物あり)でも、TTOやObjaverseデータの有効性を示し、提案法が成功率を大きく改善(Table IV)。

-
動的障害物でも、クローズドループ+単ステップTTOで 63.33%(MπNetsは10%)などを報告。
-
シミュレーションの既存ベンチ(MπNetsデータセット5400問)でもSOTA(Table II)。(MπNETより補足: 各エキスパートの設定,Global:C-space で完全探索 → 強いが遅く不安定.Hybrid:Task-space で道を引いて局所制御 → 速くて綺麗だが万能ではない)

-
評価シーン例(Fig. 9、16シーン画像)。

議論はある?
- 著者の限界として:点群品質に弱い(NeRF等のより良い3D表現が将来案)、タイトスペースがまだ苦手(RL微調整の可能性)、推論時最適化の分だけ“方策単体”より遅い(学習型衝突判定で高速化余地)。
- 実機の衝突判定は点群+球近似SDFで高速だが、タイトスペースでは精度不足が起こり得る旨も記述。
次に読むべき論文は?
- MπNets(Motion Policy Networks): 手続き生成+実機転移の代表。
- MPNet(Motion Planning Networks): 学習prior+探索の系譜。
- EDMP(拡散モデル系モーションプランナ): 学習ベース比較対象。
- Curobo: GPU並列最適化ベースの高速モーション生成。
- AIT*(Adaptively Informed Trees): 専門家として利用したサンプリングベース。
- 学習型衝突判定(Cabinet / learned implicit collision): TTO高速化の方向性。
感想
- 理論的な新規性はあまりないかもしれない
- しかし,産業界の人間として,成功率を順当に頑張る研究に感銘
- Ablationや実機実験もモリモリにやっていてすごい
- 障害物配置はバリエーションが多い一方で,生成すべき動作への影響が大きい.よって,Diffusion Policy において障害物を条件付けする場合でも,TTO のような後段の最適化(ポストプロセス)を入れたり,生成途中にポテンシャル法に基づく反発項を加えたりするなど,ニューラルネットワークの出力をそのままは信頼しない設計が依然として採られている.これは、深層学習を用いた計画・制御が抱える限界の一端を示しているように思われる
(出典: Neural MP: A Generalist Neural Motion Planner, arXiv:2409.05864v1)
技術的詳細
(※式中心に、要素技術ごとに順を追って整理)
要素技術1: 大規模データ生成(手続き生成+Objaverse)とシーン配置アルゴリズム
1. 目標
「現実に近い複雑さ・多様さ」を持つ障害物シーンを、人手設計なしで大量生成し、汎用方策の学習データを作る。
2. パラメトリック資産(プリミティブ)生成の定式化
補足: 論文中の “parametrically variable categories / parametric assets” は「パラメータ可変アセット(=パラメトリック資産) 」のニュアンス。ここでは元の表現(パラメトリック資産)を維持しつつ、「シーンに置くアセット(障害物部品)」の意味だと分かるよう補足している。
- 6カテゴリ(shelves, cubbies, microwaves, dishwashers, open boxes, cabinets)の手続き生成。
- 各カテゴリインスタンス
はg 個の直方体(cuboid)の集合:N
で表され、カテゴリ制約
補足:
(各 cuboid)を「9DoF(位置3+姿勢3+サイズ3)の9次元ベクトル」と明記はしていない(論文記載なし) 。論文は x_i を “cuboid object” として扱い、カテゴリ生成パラメータ x_i の側でサイズ・相対位置・関節軸などを指定する、と説明している。 p
- 生成関数はカテゴリ固有のパラメータ
を入力し、制約を満たす直方体集合を出す:p
ここで
(例:電子レンジなら壁の高さ一致+ヒンジドア、など)
補足: アルゴリズム(Alg.1)ではカテゴリ
ごとの生成器として g の形で書かれており、上の X_g(p) は「カテゴリに応じて切り替わる生成関数」の総称、と理解すると混乱しにくい。 X(p)
3. Objaverseメッシュの導入(現実物体形状のカバー)
- 直方体プリミティブだけでは日用品の形状分布を覆えないため、Objaverseからメッシュをサンプルして混ぜる。
- サンプル位置はタスク関連領域(棚の段間、キュビー内、キャビネット内など)に条件づけ。
- ハイパラ例(scale range等)は 論文Table VII を参照。
補足: 「Objaverseメッシュ=いろんな日用品のメッシュ?」については概ねその理解でOK。論文中でも comic books / jars / record players / caps 等の例が挙げられており、**ロボットが遭遇しうる多様な“日常物体(に近い)3Dメッシュ群”**を混ぜる目的。
ただし厳密には「日用品に限定」とは言い切らず、「多様な3Dオブジェクト」ぐらいの理解が安全。
キュビーは棚やキャビネットの中にある“小さな区画”の意味
4. “衝突が増えるほど破綻する”拒否サンプリングを回避:有効衝突法線での逐次配置
単純な rejection sampling は、物体数が増えるほど衝突確率が上がり現実的でないため、次の手順で配置を安定化する。
- シーン
に新規資産S を置きたい。x\sim X_g(p)
補足: ここでの「シーン」は論文アルゴリズム(Alg.1)の変数
(配置済みアセット集合) そのもの。初期化で S から始め、アセットを追加していって最後に “yield scene S=\{\} ” する。 S
- 衝突チェッカ
が true(衝突)なら、既存資産Q(S,x) との衝突法線s_i\in S を計算し、合成法線n_i
を作る。
- パラメータ
を更新して、生成物の中心がp 方向にシフトするように調整し、衝突がなくなるまで繰り返す。n
補足: 「障害物が空間的に被るとリアルっぽくないので、被らないようにする意味?」→ 結果として“被り(衝突)を解消する”ので理解としては合っている。
ただし論文の主な狙いは (i) rejection sampling がスケールしない問題を回避し、(ii) “衝突しにくい=物体が少ない” 方向へのバイアスを避け、複雑で密なシーンも効率よく生成すること。
-
擬似コード
擬似コードは論文 Alg.1(Procedural Scene Generation)を参照。
-

補足: 記号が紛らわしい点として、Alg.1 では「最大オブジェクト数」を
と置いているが、後述のTTO式(1)でも K が出てくる(こちらは障害物点群の点数)。別物なので混同注意。 K
要素技術2: 専門家軌道(AIT*)収集と学習しやすいデータへの変換
1. 専門家としてのサンプリングベースプランナ
- 多様タスクへ適用しやすいことから、専門家に AIT* を採用(シミュレーションでは完全な衝突判定が使える)。
補足: 「AIT*でも有限時間だと最適から遠いのでは?」→その通りで、論文は“高品質なプラン”を大量に集める立場。データ生成時の計画時間は Table VII で 20〜80秒(min/max)とされ、さらに tight-space to tight-space は 最大120秒かかることがある、とAppendixで言及されている。
したがって、漸近最適性の理論よりも、有限時間での“使える教師軌道”収集が主眼。
補足: 「AIT*のコスト関数に障害物から遠ざかる(クリアランス最大化)等が陽に入っている?」→ この論文内ではコスト関数の詳細を明記していない(論文記載なし) 。少なくとも本文で強調されているのは「perfect collision checker による collision-free 制約」で、クリアランス項の有無までは読み取れない。
2. “タイトスペース”を意図的に増やすスタート/ゴールの作り方
- 障害物回避が必要な状況を増やすため、エンドエフェクタ姿勢をキュビー/電子レンジ内部等からサンプルし、IKで関節姿勢を作る。
- タイトスペース構成は50%でサンプルし、直線で済む簡単軌道に偏らないようにする。
補足: 「50%でサンプル」の意味(言い換え)
スタート/ゴール生成のとき、半分(50%)の確率で“棚の内側・キュビー内・電子レンジ内部など狭所”からEE姿勢をサンプルし、IKでや q_0 を作る。 g
これにより、データが「近い自由空間同士の直線移動」ばかりにならず、障害物回避が必要な軌道(tight-space系)が十分含まれるようにする、という意図。
3. In-hand(把持物あり)データの導入とランダム化
- エンドエフェクタ間に物体をスポーンし、計画中は把持物をロボットの一部として扱う(視覚観測・衝突判定の両方)。
- 物体は箱/円柱/球やObjaverseから、スケールは最長辺3〜30cm、初期位置はグリッパ中心近傍5cm立方でランダム化。
補足: 「ロボットは把持物を認識できる?NNにはどう入る?」
- シミュレーションでの学習・データ生成では、把持物を「ロボットの一部」として扱い、衝突判定と視覚観測(点群セグメンテーション) の両方に含める。
- Appendix(Network training details)でも、in-handでは **“object in-hand をロボットの一部として segmentation に含める”**と書かれているため、NN入力としては基本的に ロボット点群側(ロボット点群/目標ロボット点群)に把持物点群が含まれる設計。
- 一方、実機で把持物をどう同定して(形状/姿勢)セグメントへ入れるかの具体手法は論文記載なし。また実機in-hand評価は「物体はすでに把持されている」と仮定している(把持認識・把持計画は範囲外)。
4. 重要:専門家の疎なウェイポイント問題 → スムージング
AIT*の出力はウェイポイント間が離れがちで「大きなアクションジャンプ+データの疎密」が生じ、模倣学習が難しい。
そこで、三次スプライン補間(cubic spline interpolation)で速度・加速度制約を守りつつ軌道を滑らかにする。
実装例として、MπNets由来の固定50ステップ+最大間隔0.1radのスムージングが言及されている。
補足: 「固定50ステップ」とは、スムージング後の軌道を **“時間方向に50個の遷移(50 timesteps)へ再サンプリングして固定長系列にそろえる”**こと。加えて max spacing 0.1 rad で、1ステップあたりの関節変化が大きくなりすぎないようにする意図。
5. スループット改善(Appendix)
- Hindsight relabeling:解けない/近似解のときでも、実行終端状態をゴールとして付け替える。
- Reversibility:衝突無し経路は逆向きにも使えるので、反転して
を再計算しデータ倍増。\Delta q
要素技術3: 観測設計(点群+関節)とネットワーク(PointNet+++LSTM+GMM)

1. 観測(sim2realを意識)
- 点群はロボット基準座標に根ざし視点非依存で、sim/realの整合が取りやすいという立場。
- 観測は「点群
+現在関節PCD +目標関節q_t 」。g - さらに MπNets に倣い、点群を (i) ロボット点群 (ii) 障害物点群 (iii) 目標ロボット点群 にセグメントして使う。
- MπNetsとの差分として「目標関節
を明示的に条件付け」「EE姿勢ではなく関節角を条件付け」などを強調。g
補足: 「ゴールロボットのセグメント点群」とは?
(iii) の 目標ロボット点群は、目標関節角におけるロボット形状を点群化したもの。論文では、ロボットのメッシュ表現に対して forward kinematics(順運動学) で g の姿勢へ変換し、**“target robot point cloud”**としてシーン点群に“置く”と説明している。 g
これにより、点群側からも「目標状態がどこか」を表現できる(ただし本手法ではそれに加えてベクトルも入れる)。 g
補足: 点数の目安(ハイパラ)
論文Table VIIIでは、Robot / Goal point-cloud が各2048点、Obstacle point-cloud が4096点。
補足: 「目標関節
を明示的に条件付け」= g をベクトルとして入力に入れる(後段で g をMLPで埋め込み、点群埋め込みと連結してLSTMへ)。 q_t, g
補足: そのメリットは?(論文の書き方)
Appendixでは「MπNetsとの差分」として、(1) ターゲット関節角に条件付ける、(2) EE pose ではなく関節角に条件付ける、の2点が “overall target configuration への adherence 改善”につながったと述べる。
さらに Ablation でと q の両方が重要(どれかを抜くと大幅に性能低下)を示し、理由は「proprioception が正しい g の richer signal を与えるのでは」という仮説(=深い理論解析までは少なく、実験+仮説が中心)。 \Delta q
2. エンコードと系列モデル
- 点群エンコーダ:PointNet++。
-
はMLPで埋め込み。(q_t, g) - 埋め込みを連結してLSTMへ入力、履歴長は2(seq length 2)。
- 参考:ハイパラは 論文Table VIII(GMM 5モード、LSTM 1024 hidden/2層 等)。
3. 出力分布:GMMで多峰性を表現
サンプリングベース専門家は同じ条件でも複数経路を出す(多峰性)ため、単一回帰より分布が必要。
- 方策は
のGMMを出力し、次の目標関節を\Delta q_{t+1}
で更新。
- 学習はGMMの負の対数尤度(NLL)を最小化し、PointMatchやDiffusion等より良かったと報告。
- Ablationでも、GMMがL2/L1/PointMatchより良い(+7%, +12%, +24%)と述べる。
- 観測要素では
とq の両方が重要(片方/両方なしで大幅性能低下)。g
補足: NLL(負の対数尤度)とは?
NLL = Negative Log-Likelihood。ざっくりは「教師が、モデルの出力分布(ここではGMM)の下でどれだけ“起こりやすいか”」のマイナス対数。 \Delta q
例(一般形):\mathcal{L}_{NLL} = -\log p(\Delta q \mid \text{observation}) ※GMMの具体式展開自体は一般知識だが、論文の説明は「GMMのNLLで学習する」というレベル。
要素技術4: 推論時最適化(Test-time Optimization; TTO)— “SDFで衝突点数が少ない軌道”を選ぶ
1. 背景:ニューラル方策の安全性
方策単体だと微小衝突が起こり得るため、実機投入時に安全側へ寄せたい。
補足: 論文Table I の用語対応
- Ours-Base Policy:学習済み方策をそのまま使う版(TTOなし、本文では「1s planning time」と説明)
- Ours:TTOで候補軌道から衝突の少ないものを選ぶ版(本文では「3s planning」と説明、Appendixの詳細表では平均3.9sなど)
2. 近似前向きモデル(線形モデル)
- 世界状態
(s=[q,e] : 環境状態)とし、方策の予測アクションe を使って\hat a
と更新する単純モデルを仮定(障害物は動かない・コントローラで目標WPに正確に到達できる)。
3. 候補軌道のサンプリング
- 初期点群(障害物表現)を固定して方策をロールアウトし、
本の軌道N を得る。\tau\sim\rho_{\pi_\theta} - 実装では100本から選ぶ。
補足: ここでの
は TTOでサンプルする候補軌道の本数で、論文は 100 trajectories と明記している。 N
4. 目的関数:障害物点群の“侵入点数”を最小化
障害物点群
論文の最適化目的(Eq. (1)):
- 直感:点群のうちロボット内部(または近傍)に入ってしまう点が少ない軌道を選ぶ。
- Fig.5 の分析では、100軌道中25%が完全非衝突で、その集合から選ぶ様子を示している。

- 逆に言えば,TTOなかったら75%どこかしらぶつかるという意味
補足: Appendixの Table III(追加分析)は、Table I に対して
- 平均 planning time(open-loop)
- safety violation rate(衝突・関節リミット・トルクリミットエラー)
を追加したもの、という位置づけ。
要素技術5: 実機での点群処理・衝突判定(球近似SDF)とオープンループ実行
1. 実機観測パイプライン
- Franka Panda+RealSense 4台で点群を統合し、crop/denoise/subsampleして4096点を入力に使う。
2. ロボット形状の近似:球の集合
メッシュSDFは遅いので、ロボットを球で近似して高速化:
- 56個の球、半径2〜10cm。

補足: 論文ではこの球近似は conservative(ロボットメッシュを包む) に作られ、セグメンテーション(ロボット点除去)で安全側に倒す意図がある、と説明されている。
3. 球SDFとセグメンテーション
- 球中心
、半径C のとき、論文中では点r のSDFをx
(本文表記は
- しきい値
未満の点をロボット点として除去し、障害物点群を得る。\varepsilon=1\text{cm}
4. 実機衝突判定
- 障害物点群の中に
があれば衝突とみなす。(SDF<1\text{cm}) - 注意:クローズドループだと“毎ステップで近傍点を除去する”ため、この方法は衝突を見逃す可能性がある、と明示。
補足: ここでの注意は「物理的に障害物を無視できる」という意味ではなく、
**点群ベースの衝突チェッカが、各ステップでロボット近傍点を消し続けるため、結果として“常に collision free と判定してしまう(判定が無力化される)”**という意味。
(=現実世界で本当に安全になるわけではない、という注意。)
5. オープンループロールアウト(Alg.2)
推論時は、方策を線形モデルでロールアウトして軌道
アルゴリズム(要点):
- 初期点群:
補足: ここでの
は segmentor(セグメンテーション関数) 。 S(\cdot)
具体的には、実測の scene point cloudから、球SDFを使ってロボット点を除去し、障害物点群を得る処理を表している。 PCD_{full}
補足:
(目標ロボット点群)は、ロボットメッシュ点群を事前サンプルし、FKで PCD_g に変換してシーンに配置する(現在ロボット点群 g も同様)。 PCD_{q_0}
- 時刻
の更新:t
- 点群更新(ロボット点群だけ差し替えるイメージ):
- 擬似コードは論文Alg. 2を参照
要素技術6: 学習・計算スケール(再現に効く数値)
- データ収集:2K CPUクラスタで並列化し、100万軌道を約3.5日で収集。
- 学習:20M param、PointNet++ 4M+LSTM 16M、GMM 5モード。
- 最適化:NLLで4.5M step、4090 GPUで約2日(batch 16)。
- 重要ハイパラ(例:tight space比率50%、計画時間20〜80s等)は Table VII を参照。
補足: ここでの「最適化」は 学習(training)の最適化の意味(=NNパラメータを勾配法で更新)。
論文には test-time optimization(TTO) という別の“最適化”も出てくるので、
- 要素技術6の最適化=学習
- 要素技術4の最適化=推論時最適化(TTO)
と区別すると混乱しにくい。






Discussion