🍣

論文要約: A Survey on Deep Learning-Based Monocular Spacecraft PoseEsti...

2024/03/21に公開

要約: A Survey on Deep Learning-Based Monocular Spacecraft Pose Estimation: Current State, Limitations and Prospects

本論文は、宇宙機の6自由度姿勢(以下6DoF)の単眼による推定をDeep Learning(以下DL)ベースの手法の研究のサーベイです。元論文

全体構成

本論文は非常に明確で簡潔な構成をしています。なので、目次を見てもらえば26ページの論文に何が書かれているか、スコープ全体がどう整理されるかが一発でわかります。(素晴らしい)

目次

  1. Introduction
  2. Algorithms
    1. Hybrid Modular Approaches
      1. Spacecraft Localisation
        1. Multi-stage object detectors
        2. Single-stage object detectors
      2. Keypoint Prediction
        1. Regression of keypoint locations
        2. Segmentation-driven approach
        3. Heatmap prediction
        4. Bounding box prediction
      3. Pose Computation
    2. Direct End-to-end Approaches
    3. Algorithm Comparison
    4. Limitations
      1. Deployability
      2. Explainability
      3. Robustness to Illumination Conditions
  3. Datasets
    1. Summary of Datasets, Simulators & Testbeds
      1. Datasets
      2. Simulators and Rendering Tools
      3. Testbeds
    2. Bridging the Domain Gap
      1. Data Augmentation
      2. Domain Randomization
      3. Multi-task Learning
      4. Domain-Adversarial Learning
    3. Limitations
      1. Realism of Synthetically Generated Datasets
      2. Algorithm Evaluation
  4. Future Research Directions
    1. Deployability of Algorithms
    2. Explainablity of Algorithms
    3. Multi-Modal Spacecraft Pose Estimation
    4. Generation of More Realistic Synthetic Data
    5. Domain Adaptation
    6. Beyond Target-Specific Spacecraft Pose Estimation
    7. Multi-Frame Spacecraft Pose Estimation
  5. Conclusions

はい。この目次がほぼ要約ですね。このままでは記事書いてる意味がないので、あえて文章化してみます。

この論文では対象分野を、アルゴリズム・データセット・今後の展開という形で整理するよ。
まずアルゴリズムは大きく 2種類あり、複数の部品を組み合わせる方法と、End-to-Endで一気にやる方法があるよ。複数の部品を組み合わせる場合は1)画像内の対象の認識、2)対象のkeypointの推定、3)姿勢の算出、という部品を使うよ。それぞれのアプローチを比較評価して、その限界を示すよ。その限界とは、オンボード計算機への適用性、説明性、証明環境変化へのロバスト性だよ。
続いてデータセットは、既存のデータセットの列挙、ドメインギャップの解決法、限界という形で整理するよ。既存データセットは、シミュレーションベースのものは使用レンダリングツールについて、実験室のものはその撮影環境についてまとめるよ。シミュレーションや実験室の画像はドメインギャップの解決が肝になるよ。その方法は4つあって、Data Augmentation, Domain Randomization, Multi-task Learning, Domain-Adversarial Learningがあるよ。それでも限界があって、主に合成画像のリアリティーやアルゴリズム評価の困難さが挙げられるよ。
最後に、今後の研究が展開できる方向性を列挙するよ。オンボード計算機への展開性の向上、説明性の向上、マルチモーダル化による性能向上、合成画像のリアリティー向上、ドメイン適合、対象宇宙機の汎化、姿勢推定のマルチフレーム化が挙げられるよ。

以降は各章についてもう少し詳しく要約していきます。


1. Introduction

  • かつてないほどに軌道上の衛星の数は増加している。そのため、デブリ除去(ADR)を中心とした軌道上サービス(OOS)の必要性が増している。
  • OOSには単眼カメラによる姿勢推定が重要
    • OOSには対象物への接近技術が不可欠で、対象物体の相対位置と回転を知る必要がある
    • 使えるセンサーは色々あるけど、単眼カメラが一番使いやすくて好まれる
  • 姿勢推定はComputer Visionの基本的な問題の一つ
    • それぞれ3変数で表される並進・回転を求める
    • 本論文の題材はその部分問題で、対象を宇宙機とする
  • これまでの手法は照明環境変化へのロバスト性に課題がある
    • これまでは属人的でad-hocな特徴量を利用した手法が使われている
    • その手法は照明環境変化に弱い
  • DL手法はデータのDomain gapに課題がある
    • 宇宙機姿勢推定のコンペではDL手法が好んで使われている
    • DL手法はアノテーションデータを必要とするが、宇宙機では実データがほとんど手に入らない
    • 代わりにシミュレーションや実験室での画像が学習に用いられる
    • その場合は、学習画像と運用画像の違い(Domain Gap)によるパフォーマンスの低下が顕著
  • 本論文では...を解説するよ(上記目次の通り)

2. Algorithms

近年の宇宙機の姿勢推定はDeep Learningベースの研究が古典的な手法よりも多い。そのアプローチは大きく2つに分けられます。Hybrid Modularアプローチとend-to-endアプローチです。Hybrid modularアプローチはDLや古典的な手法を複数組み合わせる方法で、end-to-endは一つのDLモデルだけを使う方法です。


アプローチの分類


各アプローチの処理の概要

2.1. Hybrid Modularアプローチ

このアプローチは共通して以下の3つの処理に分けられます。

  1. Spacecraft Localisation

  2. Keypoint Prediction

  3. Pose Computation

各ステージの詳細について見ていきましょう。

Hybrid Modularアプローチの各処理の入出力概要

2.1.1. Spacecraft Localisation

こちらは一般的にいうObject Detection(物体検知)です。2次元画像中のBounding Boxを推論して下流の処理のROIとします。一般的なCVの文脈と同様に大きく分けて2つのモデルがあり、R-CNNに代表されるMulti-stageモデルとYOLOに代表されるSingle-stageモデルです。それぞれの長短も一般的なCVの話と同様です。

2.1.2. Keypoint Prediction

こちらの処理では2次元画像中のKeypointsの位置をDLモデルを使って推論します。ここで推定するKeypointsはCAD上で事前に定義しておきます。CADがない場合はStructure from Motion技術などを使ってポリゴンを作ったりします。

Keypointの推定方法には様々提案されており、それぞれ紹介していきます。

  • Keypoints位置の回帰: Keypointsの画像中の座標を直接回帰します。ある例ではM個のKeypoints座標を1x1x2Mのベクトルとして回帰しています。

  • Segmentationアプローチ: 入力画像を細かいグリッドに分割し、segmentationヘッドがそれぞれを前景か背景に分類します。回帰ヘッドは各セルのキーポイントを回帰しますが、前景に分類されたセルのみが推定に採用されます。

  • Heatmap 推定: Keypoints位置の確率をヒートマップとして推論します。ヒートマップの最も高い点を各keypointsとします。アーキテクチャとしてはHRNetやUNetベースがよく使用されます。

  • Bounding Box推定: Keypointsをbouding boxとして信頼度付きで推定します。


Keypoints推定手法

2.1.3. Pose Computation

こちらの処理では一般的に学習ベースの手法は使いません。推定された画像中Keypoints位置と事前に定義された3次元的なKeypoints位置の対応から宇宙機の姿勢を算出します。ここで重要な処理が間違ったkeypointの除去です。Perspective-n-Point(PnP)は外れ値に過敏なためです。RANSACというアルゴリズムがよく用いられます。IterativePnPとEPnPが多くのHybridアプローチで採用されています。

近年はPnPを学習ベースの手法で代替する提案もされています。

2.2. Direct End-to-End Approaches

End-to-Endとは、宇宙機の姿勢を推定するのに一つのDLモデルだけを使用し、姿勢のエラーを損失として学習するモデルを指します。Hybridとの大きな違いはカメラパラメータなどの付帯情報を使用せず、それらはデータより内部的に学習されることです。

本節では様々なモデルが紹介されます。独断と偏見でざっくり紹介します。

  • 並進3変数、回転4変数(quaternion)を直接推定させた研究では、回転の推定の精度が出なかった。原因は、回転エラーのノルムが実際の回転の違いと正しく対応していないからだと考えられる。
  • 推定する姿勢空間を量子化し、分類問題として定義した研究もある。分類対象は4変数あり、宇宙機を中心とする球面上の位置に2変数、光軸周りのカメラの回転、宇宙機からの距離である。問題はクラスを増やすとパラメータ数が急増することと、Refinementの後処理が必要なことです。
  • その短所を克服するために、3つのブランチを持つモデルが提案された。Bounding Boxの推定、回転の分類、回転クラス間の重み付けである。対象の位置はBounding Boxと回転から求められる。
  • 同様に回転を量子化して、その確率質量関数を推定するよう学習した研究もある
  • マルチスケール・マルチタスクで学習することにより、ドメインギャップを克服しようとした研究もある。宇宙機の有無やbounding boxなど様々なヘッドで学習することにより、特定のタスクに限定された特徴を学習することを避けた。また、ターゲットドメインのラベルなし画像でオンボードの計算機でonline domain refinementを行っている。

2.3. Algorithm Comparison

これまでに提案された手法を精度とパラメータ数の観点でプロット及び表にまとめています。表はでかいので原論文を参照してください。

パラメータ数と精度のプロット

プロットだけを信じるならば、左下の4~5つほどの手法がよさそうです。

また、アルゴリズムを比較する際にはmodularかEnd-to-Endかということも重要です。その点Modularアプローチはカメラを変えたりした際にPose Computation部分だけを調整し直せば良いなどの利点があります。

ESAのコンペの結果では、Modular Hybrid アプローチのほうが高いパフォーマンスを発揮しています。

2.4. Limitations

近年DLベースの手法の研究が進んでいますが、実用にはほとんど至っていません。それをはばんでいる制約を理解することは非常に重要です。

2.4.1. Deployability

モデルを実際の宇宙機の計算機にデプロイできるかという点は重要ですが、未だにはっきりと答えられていない研究課題です。既存研究では、ごく少数しか実際のエッジデバイスでのテストはしていません。またデプロイ可能かを決めるレイテンシー・推論時間・メモリ要件・消費電力などの点を検討していません。多くの研究がoff-the-shelfのモデルを使用していますが、これらが本来想定している計算機環境とは大きく異なります。

2.4.2. Explainability

アルゴリズムがどのようにしてその推定に至ったのかを理解できることは、宇宙ミッションにおいて信頼性や安全性の観点から極めて重要です。DLモデルは基本的にこれができません。この点においてはModularアプローチのほうがEnd-to-Endに対して分があるといえます。それでも理由付けや不確実性のモデリングといった点で難があります。

2.4.3. Robustness to Illumination Conditions

単眼ベースのアルゴリズムは一般的に照明環境に影響されやすいです。宇宙の動的な照明環境は精度やロバスト性に大きく影響します。禁煙のKSPECコンペでは、ベストのアルゴリズムでも極端な照明環境ではあまり機能しませんでした。これらの克服にはアルゴリズム設計・エッジでの評価手順・センサー技術や環境モデリングなどの継続的な研究が必要です。

3. Datasets

学習データの品質は、DLアルゴリズムそのものと同じくらい重要です。6DoF姿勢推定においても様々なシナリオをカバーする大型のデータセットが必要です。

しかし宇宙の画像データとなると非常に限られていて、DLモデルの適用を大きく制限しています。その対策にはレンダリングツールやテストベッドが挙げられます。レンダリングツールを用いることで柔軟にデータを取得することが可能です。

多くの場合、宇宙機の姿勢推定は航行システムの一部として使われ、ロボットアームなどを用いて軌道上の運動を模擬するテストベッドで試験されます。合成画像もテストベッドの画像も実際の宇宙での画像とは様々な点で異なります。

以上から、宇宙機の姿勢推定は開発・試験・運用を通じて3つのドメインの画像を扱うことになります。そのドメインは、合成画像・実験室画像・宇宙画像です。学習データ固有の特徴に過学習してしまうのがDLモデルの常なので、domain gapの問題を克服することがアルゴリズムのパフォーマンスに不可欠です。

3.1. Summary of Datasets, Simulators & Testbeds

宇宙機の姿勢推定のデータセットが表にまとめられています。着目すべきは、一般的な機械学習タスクに用いられるCOCOなどのデータセットに比べてデータ量が少ないことです。

対象の宇宙機の大きさも重要な観点の一つです。TANGOなど小規模な対象物のデータセットを用いたアルゴリズムは距離域が10m以下など必然的に小さくなります。

アノテーションの程度もデータセットによりけりです。表中のデータセットはすべて6DoF姿勢のラベルはあるものの、bounding boxやkeypointsなどの付加的なアノテーションは基本的にありません。Hybridアプローチの学習にはこれらのアノテーションが必要になります。


データセットの一覧. 列の内容は左から、名称・発表年・画像種別・対象宇宙機・解像度・カラーかグレー・距離域・レンダリングエンジン

Simulator and Rendering Tools

コンピューターグラフィックス、特にレイトレーシングと呼ばれる技術によって写実的な画像を得ることが可能になります。

既存の宇宙環境のシミュレータの事例には、Dundee大学のPANGUやAirbusのSurRenderが挙げられます。それらツールのレンダラーにはOpenGL, Blender, Unreal Engine, Mitsubaあるいは独自のレンダラーなどが用いられています。SPEEDやSPEED+はPRISMAミッションの実画像をもとにヒストグラム比較でバリデーションされていますが、デファクトと呼べるツールはまだありません。

Testbeds

宇宙機の姿勢推定の実画像を集めるのは極めて困難なので、実験室のテストベッドが代替手段になります。テストベッドの一覧が表にまとめられています。これらのテストベッドは大概、ロボットアームで宇宙機のモデルやセンサーを動かせるようになっています。また宇宙環境を模擬する照明や、正確な姿勢ラベルを得るためのモーショントラッカーなども備えられています。


テストベッド. ルクセンブルク大(左)とスタンフォード大(右)

3.2. Bridging the Domain Gap

現在の宇宙機姿勢推定データセットの最大の問題は画像ドメイン間のギャップ(Domain Gap)です。

合成画像で学習されたDLアルゴリズムを実画像でテストした際にはパフォーマンスが低下します。ここで学習データ・テストデータのドメインをそれぞれsource, targetドメインを言います。source, targetともに実画像(テストベッドと宇宙)であっても、取得された環境が違えばDomain Gapが存在します。したがって、Domain Gapの克服がDL姿勢推定の実用には不可欠です。これにはざっくり2つアプローチがあります。

  • データでの解決策: 学習データの多様性を増加させる。具体的にはdata augmentation やdomain randomization

  • アルゴリズムでの解決策: 学習プロセスを工夫し、特徴量のドメイン依存性を緩和する。具体的にはmulti-task learning やadversarial learning

3.2.1. Data Augmentation

既存のデータになんらかの加工を施しデータの量や多様性を増加させ、モデルの汎化性を向上させることを目指します。ノイズなどのピクセルレベルのものから、アフィン変換などの空間レベルの手法があります。Data AugmentationはDomain Gapの克服に有効な場合も多いですが、パフォーマンスが低下する事例も報告されています。用いられた手法が表にまとめられています。


Data augmentation手法の例

3.2.2. Domain Randomization

sourceデータを充分ランダム化することで、モデルにとってtargetドメインがsourceドメインのランダム化のうちの一つに見えてしまうようにすることが目的です。Data Augmentationのひとつと見てしまうことも可能です。

3.2.3. Multi-Task Learning

一つのDLモデルを複数の異なるタスクに対して同時に学習することで、モデルのDomainへの汎化性の向上を試みます。共通の特徴量抽出器と各タスクに特定の層を用いるのが一般的な方法です。必ずしもすべてのタスクが目的のタスクの汎化性能に寄与するとは限りません。


マルチタスク学習のアーキテクチャ図

3.2.4. Domain-Adversarial Learning

この手法はモデルにsourceとtargetのドメイン分類器を付与して、それが分類できないように学習を行います。それにより特徴量抽出器はドメインに依存しない特徴を獲得することを目指します。

3.3. Limitations

既存のデータセットや評価プロセスはDL宇宙機姿勢推定を実際のミッションで用いるにはまだまだ不十分です。

3.3.1. Realism of Synthetically Generated Datasets

合成画像のリアリティはdomain gapの主要な要因の一つです。大気モデルの参照がないこともリアルな照明や影の作成を難しくしています。宇宙環境専用のシミュレータが必要だと考えられます。

3.3.2. Algorithm Evaluation

Domain gapの緩和には様々な試みが行われていますが、ESAのコンペでは合成画像テストデータと実験室画像テストデータではスコアがひと桁違いました。更に、実験室画像での高い精度は依然として宇宙画像での精度を保証はしません。

4. Future Research Directions

この分野には改善すべき領域が多分にあります。

4.1. Deployability of Algorithms

これまでの研究では計算資源が豊富な環境でのテストが中心で、エッジデバイスでの評価は限られています。このサーベイではモデルのパラメータ数を比較していますが、同じ観点で評価されるべき変数は他にもあります。エッジのAIデバイスに適したDLモデルも重要な研究内容です。

4.2. Explainability of Algorithms

実世界での使用にはアルゴリズムの説明性は重要な論点の一つで、更には宇宙のような安全性が極めて重要な領域ではなおさらです。したがってなぜ、どのようにしてなんらかの決定や予測が行われたかを知ることが重要です。しかしDLモデル、特にEnd-to-Endはこの点に難があります。

4.3 Multi-Modal Spacecraft Pose Estimation

宇宙環境では可視光域の画像の取得が難しい場合もあるので、サーマルカメラやToFカメラを用いてマルチモーダル化するのはまだ事例の少ない領域です。

4.4. Generation of More Realistic Synthetic Data

宇宙でのDL活用の主要な問題はデータ不足で、その先の問題は合成画像のDomain Gapだと説明しました。実際の宇宙画像との比較などが進められています。

4.5. Domain Adaptation

ESA姿勢推定コンペの第2回は特にDomain Gapの克服に関心が向けられていました。よりリアルな合成画像とドメイン適応はセットで今後の注目を集めるでしょう。

4.6. Beyond Target-Specific Spacecraft Pose Estimation

既存のアルゴリズムは単一の宇宙機に特化しています。新たな対象にはその都度データセットを作り、学習し直す必要があります。しかしデブリ除去などへの適用では、形状が当初とは変わっている可能性もあるので、学習に含まれていない対象への対応も求められます。

4.7. Multi-Frame Spacecraft Pose Estimation

既存のアルゴリズムは各フレームを単独で扱いますが、姿勢推定は宇宙で自動航行の一部として用いられるため、連続した画像の系列が使用可能なはずです。時系列情報を用いて精度を高めるのは今後の鍵となります。一般的な文脈ではビデオによる6DoF推定はたくさんの研究があるため、宇宙にも適用していくことが予想されます。

Discussion