🇮🇹

JAXA認定の宇宙ベンチャー企業のエンジニアがECCV2024に参加しリモートセンシング研究の概要まとめてみた

2024/10/25に公開

こんにちは。JAXA認定の宇宙ベンチャー企業 天地人でデータサイエンティストしている中村(@ryo123456789098てんちびとインタビュー)です。

2024年10月に開催されたコンピュータビジョン(CV)分野で最高峰の国際会議の1つであるECCV(European Conference on Computer Vision)に参加し、発表を行なってきました。

プレゼン

この国際会議では、リモートセンシング(リモセン)とコンピュータビジョンが交わる発表もいくつかあり、宇宙ビックデータを扱う天地人の仕事に直接関わる重要なテーマがいくつ取り上げられていました。(天地人が作成した製品・サービスはこちらから確認できます。)
今回のブログでは、その中でも私たちの技術に応用できそうな最新の研究成果や、今後のリモートセンシングの発展において鍵となる研究のまとめを紹介します。
研究の詳細にはあまり触れず、ECCV2024で発表されたリモセン×コンピュータビジョンの研究内容をピックアップして紹介することに焦点を当てていますので、あらかじめご了承ください。

ECCVについて

はじめに、「ECCVとは何か?」という方のために、簡単にご紹介いたします。
ECCVは、冒頭でも触れたように、コンピュータビジョン分野における最高峰の国際会議の1つです。

コンピュータビジョンの分野で「最高峰」と呼ばれる国際会議には、ECCVのほかに「CVPR」と「ICCV」があります。CVPRは毎年6月に開催され、ECCVとICCVは2年に1度、交代で10月に開催されます。(今年はECCVが開催され、来年2025年にはICCVが開催される予定です。)

今回のECCVはイタリアのミラノで開催され、宇宙系の国際会議であるIAC(International Astronautical Congress)2024と同じ、Allianz MiCo • Milano Convention Centreで行われました。

mico

ECCVの採択数とリモートセンシング論文の採択数について

概要に入る前に、リモートセンシング(リモセン)に関する論文がどの程度採択されていたのかについて触れておきます。
今回のECCVでは、合計2,387本の論文が採択され、そのうち(観測できた範囲で)リモセンに関する論文は18本(全体の0.75%)でした。
最も多く採択された分野は「3Dコンピュータビジョン」で、約400本(16.75%)でした。さらに、医療関連の論文も約100本(4.18%)採択されています。これらと比較すると、リモセンに関する論文は少ないと言えるでしょう。

しかし、ECCVでリモセンに関する論文が18本採択されたことから、リモセン関連の論文の今後の増加が期待されます。分野の成長に伴い、リモセン関連の研究が増加することが期待されます。
リモセン分野の発展には、コンピュータビジョン分野でもリモセン研究に取り組む研究者が増えることが重要だと考えられます。

accept
subject

ECCVに採択されたリモートセンシング論文の概要

ここからは、ECCVに採択されたリモートセンシング(リモセン)研究の概要を紹介していきます。今回のECCVで採択されたリモセンに関する18本の論文は、大きく3つのカテゴリーに分類することができました。

分類は以下の通りです。

  • Multimodal model (MM) or Vision and language model(VLM)系論文:10/18本
  • 物体検出手法の改善やデータセットに関する研究:4/18本
  • リモートセンシングタスクをコンピュタービジョン風に改善する研究:4/18本

初めに、多くの論文は、MMまたはVLM系と呼ばれるもので、1種類のリモセンデータ(航空画像や衛星画像)を扱うだけでなく、リモセンデータに加えて地上データ、メタデータ、テキストデータなど、複数のデータを扱う機械学習モデルに関する研究が多く見られました。

次に、その他の研究としては、コンピュータビジョン(CV)分野で提案されている物体検出技術をリモセンデータに適用する際に生じる特有の課題を解決するものや、リモセンタスク向けの物体検出用データセットの提案がありました。

最後に、リモセン特有のタスク(例えば天気予測や樹高推定など)を、パターン認識や機械学習の手法を用いて改善する研究もありました。これらは、コンピュータビジョン分野でよく見られるパターン認識や機械学習技術を応用したもので、リモセンのタスクに新しいアプローチを提供しています(*コンピュータビジョン分野では、パターン認識や機械学習に関する研究が多いため、「コンピュータビジョン=パターン認識や機械学習」と考える方もいますが、それに対する異論もあるため、ここでは「コンピュータビジョン風」と表現しています。)

次のセクションでは、それぞれのトピックについてさらに深掘りしていきます。

Multimodal model (MM) or Vision and language model (VLM)系の研究

それでは、今回のECCVで最も多く採択されたMMやVLM系の研究について紹介していきます。
前章でも説明しましたが、改めて定義すると、Multimodal model(MM) は複数のモーダルデータ(「衛星画像とメタデータ」や「航空画像と衛星画像」など)を扱うモデルを指し、Vision and language model(VLM) は画像とテキスト(言語)を同時に扱うモデルを意味します。

複数のデータを扱う利点としては、それぞれのデータが得意とする部分を活用したり、逆に苦手な部分を他のデータで補うことができる点が挙げられます。

例えば、リモセンデータの1つである衛星画像には「広域性:広い範囲を一度に観測できる」や「アクセスが困難な地域も観測できる」といった利点があります。しかし同時に、「空間解像度」や「天候や環境による制約(雲や霧などによる観測の妨げ)」といった難点もあります。

ECCVで採択された研究では、複数のデータを活用することで、リモセンデータの強みである広域性を活かしつつ、空間解像度の低さなどの弱点を他のデータで補完する試みが行われていました。これにより、リモセンデータ単体では解決が難しかったタスクが、複数のデータを組み合わせることで解決に向けて大きく前進しています。このアプローチはリモセン分野にとって非常に重要であり、MM分野の研究は、リモセンデータの価値をさらに引き出すための鍵と言えるでしょう。

今回、ECCVに採択されたリモセンのMM系・VLM系の研究は、大きく以下の4つに分類することができます。

  • 地上画像(ストリートビューや植物画像)と衛星画像 or 航空画像を扱う研究
  • 複数のセンサーから取得される航空画像 or 衛星画像を扱う研究
  • メタデータと衛星画像を扱う研究
  • 位置情報や時間データと航空画像を扱う研究
  • テキストと衛星画像を扱う研究

次のセクションでは、それぞれの研究についてさらに詳しく紹介していきます。

地上画像(ストリートビューや植物画像)と衛星or航空画像を活用する研究

地上画像と航空・衛星画像を用いたマルチモーダルモデル(MM)の概要を以下のスライドに示します。

地上画像と航空衛星画像

ここでいう「地上画像」とは、ストリートビューやドライブレコーダー(ドラレコ)の映像、植物画像(およびそれらの位置情報)を指し、これらを航空・衛星画像と組み合わせて、さまざまなタスクに挑戦する研究が行われています。

1つ目は、ストリートビューやドラレコの画像を使用し、航空・衛星画像と組み合わせて、GPSレベルの位置情報を推定する研究です。この研究では、ストリートビューがリモートセンシング画像内のどの位置にあるかをパターン認識によって学習し、ストリートビュー画像から衛星画像を介してその位置を推定します。詳細は省きますが、この位置情報推定に関するMMの研究は複数提案されており、ECCVでも非常に人気のあるトピックでした。

2つ目は、地上の360度カメラで撮影された画像を、衛星画像を使ってリファイン(改善)する研究です。この研究では、ネットワークにピクセル単位のラベル情報を入力することを仮定しており、単純に衛星画像のテクスチャを貼り付けるだけでは綺麗な画像を生成できません。しかし、近年注目されている生成モデルであるディフュージョンモデルを活用することで、高品質な360度画像の生成が可能となりました。

3つ目は、植物画像と航空・衛星画像を用いて、地上の植生分布を認識し、土地情報を考慮して植物画像の認識精度を向上させる研究です。この研究では、植物画像と対応する衛星画像パッチの位置関係を学習することで、植物画像の認識率を向上させました。また、植物が衛星画像内のどの領域に分布しているかを、衛星画像パッチと複数の植物画像の類似度を計算することで推定することが可能となります。

複数センサーから取得される航空 or 衛星画像を扱う研究

次に、複数センサーを用いたMMの概要を以下のスライドに示します。

複数センサーと航空衛星画像

複数センサーとは、文字通り、異なるセンサーから取得されたリモートセンシングデータのことです。リモートセンシングでは、コンピュータビジョンで扱われる画像データのように単純なRGBではなく、反射や放射される電磁波の波長を測定してデータが作成されます。
ここでは、波長によるデータ取得の詳細説明は割愛しますが、興味のある方はこちらの資料をご確認ください。

ECCVの研究では、複数センサーを活用することで、土地認識の性能が向上することが確認されています。なぜ認識性能が向上するのかはまだ完全に解明されていませんが、リモートセンシングでは「物体によって特定の波長帯における反射強度が変化する」ことが知られており、この情報が認識精度の向上に寄与している可能性があります。

一方、コンピュータビジョンでは、マルチモーダルデータを扱うことで、特定のタスクに対して再学習(ゼロショット学習)を行わずとも高い認識性能が得られることが知られています。しかし、リモートセンシングにおいては、まだ精度向上の余地があるようです。

メタデータと衛星画像を扱う研究

次に、メタデータを用いたMMの概要を以下のスライドに示します。

メタデータと航空衛星画像

メタデータとは、衛星画像が撮影された場所や時間帯などの情報を指します。この研究では、衛星画像とメタデータを組み合わせることで、位置や時間といった情報を相対的に学習できるため、土地認識の精度が向上するとされています。また、メタデータは衛星画像に比べてデータ容量が非常に小さいため、処理コストを抑えながら精度向上に寄与できる点も述べられていました。

今回の研究テーマは土地認識の精度向上ですが、Stable Diffusion Modelのようなテキストから画像を生成する技術の進展を考えると、メタ情報を活用して未来の予測やシナリオ生成といった研究が行われる可能性もあります。今後の動向に注目が集まるトピックです。

位置情報や時間データと航空画像を扱う研究

次に、位置情報や時間データを用いたMMの概要を以下のスライドに示します。

位置時間と航空衛星画像

位置情報と時間データ、航空画像を組み合わせることで、「画像駆動型交通モデリング」が可能になります。これは、航空画像とその位置・時間データを入力することで、画像に含まれる道路の方向や交通速度を推定するものです。
従来は監視カメラや速度センサーを用いて交通モデリングが行われていましたが、センサーが設置されていない場所ではモデリングが困難でした。この研究では、航空画像と位置・時間データを組み合わせることで、こうした限界を超えることに挑戦しています。

従来の方法では、監視カメラや速度センサーなどのハードウェアを設置する必要があり、コストがかかるという問題がありました。しかし、リモートセンシングデータを活用することで、安価に交通モデリングを実現できる可能性が示されています。これがこの研究の大きなポイントです。

テキストと航空 or 衛星画像を扱う研究

次にテキストデータを用いたVLMの概要を以下のスライドに示します。

テキストと航空衛星画像

テキストデータとは、ここでは英語のような言葉の文章にしたデータのことを指していて、衛星画像と組み合わせて活用することで、様々なことを実現しています。
具体的には、衛星画像の説明出力する、ビルの数を数える、物体の位置をバウンディングボックス形式で出力するなど、コンピュータビジョンで知られている土地認識や物体検出のタスクをチャット形式で扱うことができます

現在では、先に挙げたようなリモセンの画像認識タスクに限定されているのですが、リモセンの画像認識タスクそのものが発展すればVLMの可能性も広がっていくことが予想されます。

物体検出の手法の改善方法及びデータセットに関する研究

ECCVで採択された物体検出に関する研究のうち、今回は特に手法の改善に焦点を当てて紹介します。なお、物体検出に関するデータセットの研究は1件のみだったため、ここでは割愛し、手法改善に注目します。

物体検出の手法改善に関するスライドは以下の通りです。

地上画像と航空衛星画像

リモートセンシング画像を用いた物体検出は、地球モニタリングに広く利用されていますが、コンピュータビジョンでよく使われる物体検出手法をリモセンデータに適用する際には、いくつかの課題が生じます。ECCVで指摘された主な課題は以下の通りです。

  • 物体が密集している場合の物体検出モデルの精度向上
  • 航空画像によるスケールの変動に対応する物体検出モデルの精度向上
  • 画像内で回転している物体に対する物体検出モデルの精度向上

これらの課題にはさまざまなアプローチが考えられますが、ECCVの採択研究では、モデルの構造や手法の特性を深く理解し、それをリモセン固有のタスクに適用できるように修正・調整することで、これらの課題に取り組んでいました。

ここで気になる点は、こうした改善が他の研究でも行われている可能性が高いということです。しかし、これらの手法を組み合わせることで、タスクのベースラインがどれだけ向上しているかが重要なポイントとなります。工学的には、こうした課題に取り組む際に他の研究成果をしっかり活用することが、今後の発展において重要だと考えられます。

リモートセンシングタスクをコンピュタービジョン研究風に改善する研究

最後に、リモセンタスクをコンピュータビジョン研究風に改善する研究の概要について紹介します。

概要の説明スライドは以下に示します。

CV風に解く

この章では、樹高推定、変化検知、天気予測などのタスクにおいて、様々なコンピュータビジョンの手法を取り入れた工夫が行われていました。
例えば、樹高推定の場合、地域によって木の色が異なり、似た画像でも樹高が全く異なるケースが生じます。このような画像の差異に対処するために、「特徴量空間内で画像同士を近づける」や「新しい手法で特徴量空間そのものを定義する」などのアプローチを採用し、異なる地域の画像の対応関係を取る研究が見られました。

また、季節性を考慮した変化検知において、シーンのみで適用できる手法があっても、建物が含まれる場合には処理が困難になることがあります。そこで、Segment Anything Modelを活用し、季節性を考慮した変化検知手法が研究されていました。

さらに、天気予測(画像)にはDiffusion Modelが活用されており、決定論的予測(特定のシナリオに対する一意の出力)と確率論的予測(多様なシナリオの予測)を組み合わせることで、短期的な予測が苦手な決定論的予測を、確率論的予測で補完する手法が研究されていました。

このように、コンピュータビジョンで研究されている技術を衛星リモートセンシングに応用することで、技術が洗練され、問題解決に前進が見られました。今回、リモセンに関する論文は18本採択されましたが、今後この数が増えることで、宇宙業界のさらなる発展に寄与し、私たちの仕事がますます面白くなると感じています。今後の進展に大きな期待を抱いています。

まとめ

本ブログでは、ECCV2024に採択されたリモートセンシング研究について、その概要を紹介しました。
今回採択された論文の多くは、Multimodal ModelやVision and Language Modelといった、単一の衛星や航空画像ではなく、複数の画像やデータを扱うモデルに関する研究が中心でした。複数のデータを活用することで、リモセンデータが苦手とする土地の詳細を他のデータで補い、逆にリモセンデータの強みを他のデータに活かすことで、リモセン分野のさらなる発展と可能性が示唆されました。

また、コンピュータビジョンで研究されている技術をリモセンタスクに適用することで、技術が改善されている点も見受けられました。これにより、リモートセンシングとコンピュータビジョンの技術のコラボレーションが重要であることが強調されました。

今後、双方の技術がさらに融合し、それぞれの分野がより発展していくことを期待しています。


株式会社天地人では、人工衛星などの宇宙ビッグデータを活用し、地球規模の課題に取り組むためのオンラインGISプラットフォーム天地人コンパス(Tenchijin COMPASS)を開発しています。

私たちと一緒に天地人コンパスを開発してくれる仲間を募集しております。ご興味のある方は以下のページよりエンジニアリングの募集の求人にてご確認下さい。

https://www.wantedly.com/companies/company_5025838/projects

ちょっとした余談(ミラノ話)

マルペンサ空港に到着後、電車で会場に向かおうとしたのですが、ちょうどそのタイミングで、ある労働組合がストライキを宣言しており、電車が運休していました。そのため、移動手段は「タクシー」か「バス」しかなくなったのですが、タクシーのミラノまでの運賃が110ユーロ(日本円で約17,888円)と非常に高額だったため、ほとんどの人がバスを利用することになり、バス停には大行列ができていました(バスは10ユーロ程度。日本円で1626円程度)。結果として、バスに乗るまでにかなりの時間がかかり、会場までの道のりはとても大変でした。

ただ、ミラノの食事は非常に美味しく、バスを降りた後に食べたペンネのカルボナーラは格別でした。その他にも、巨大なティラミスやソーシャルイベントで訪れた、(ディ某某ー風の)運河沿いにある飲食店では、ミラノの美しい風景を楽しみながら、充実した食事と議論を楽しむことができました。ここでその風景と食事を皆さんにお裾分けいたします。
ここまで読んでいただきありがとうございました。

景色

カルボナーラ ティラミス

ECCVに採択されたリモートセンシングが関連する研究

本記事は以下の論文の内容からまとめを作成しています。

  1. Florian Fervers et al. (2024), “Statewide Visual Geolocalization in the Wild”, ECCV
  2. Yujiao Shi et al. (2024), “Weakly-supervised Camera Localization by Ground-to-satellite Image Registration”, ECCV
  3. Manu S Pillai et al. (2024), “GAReT: Cross-view Video Geolocalization with Adapters and Auto-Regressive Transformers”, ECCV
  4. Scott Workman et al. (2024), “Probabilistic Image-Driven Traffic Modeling via Remote Sensing”, ECCV
  5. Ningli Xu et al. (2024), “Geospecific View Generation - Geometry-Context Aware High-resolution Ground View Inference from Satellite Views”, ECCV
  6. Andy V Huynh et al. (2024), “Contrastive ground-level image and remote sensing pre-training improves representation learning for natural world imagery”, ECCV
  7. Guillaume Astruc et al. (2024), “OmniSat: Self-Supervised Modality Fusion for Earth Observation”, ECCV
  8. Vishal Nedungadi et al. (2024), “MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning”, ECCV
  9. Jules Bourcier et al. (2024), “Learning Representations of Satellite Images From Metadata Supervision”, ECCV
  10. Dilxat Muhtar et al. (2024), “LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model”, ECCV
  11. Ziyue Huang et al. (2024), “MutDet: Mutually Optimizing Pre-training for Remote Sensing Object Detection”, ECCV
  12. Kun Wang et al. (2024), “Multi-Scale Cross Distillation for Object Detection in Aerial Images”, ECCV
  13. Zhihao Li et al. (2024), “Masked Angle-Aware Autoencoder for Remote Sensing Images”, ECCV
  14. Jens Hellekes et al. (2024), “VETRA: A Dataset for Vehicle Tracking in Aerial Imagery - New Challenges for Multi-Object Tracking”, ECCV
  15. Sizhuo Li et al. (2024), “Get Your Embedding Space in Order: Domain-Adaptive Regression for Forest Monitoring”, ECCV
  16. Charig Yang et al. (2024), “Made to Order: Discovering monotonic temporal changes via self-supervised video ordering”, ECCV
  17. Donggeun Yoon et al. (2024), “Probabilistic Weather Forecasting with Deterministic Guidance-based Diffusion Model”, ECCV
  18. ZiDong Wang et al. (2024), “PredBench: Benchmarking Spatio-Temporal Prediction across Diverse Disciplines”, ECCV

Discussion