🛰️

リモートセンシング領域の基盤モデルと論文まとめ

に公開

リモートセンシングへの基盤モデルの影響

近年自然言語処理や画像認識で成果を挙げた「基盤モデル: Foundation Models; FM」が、衛星リモートセンシング(Earth Observation; EO)にも波及しつつあります。数十〜数百TB規模の光学・SAR時系列を自己教師ありで学習したモデルは、洪水域抽出や作物分類など多彩なタスクへ、わずかなラベルとプロンプトだけで即応できます。大量データの前処理と真値作成に費やしていた労力を大幅に減らし、「データ準備地獄」から解放する点が最大の期待なんです。学習済み重みは公開されており、専門外のエンジニアでも短時間で高精度モデルを活用できます。


IBM/TerraMind 1.0 より

さらに基盤モデルは光学とSAR、気象再解析など異種データを統合し、小規模データでの微調整やゼロショット推論が可能なため、データ不足地域でも高精度を維持できます。こうした汎用表現は、新興国の土地利用計画や森林違法伐採の監視にも即時に展開可能です。

地球観測が「データ収集」から「知識抽出」の時代へ移った感じがしますね〜。

https://sorabatake.jp/33808/

宙畑で基盤モデルの記事を執筆してから2年にもなります。びっくりです。
やっと、一般の方々にも浸透してきた感じがしますね。

耳で聞く聞き流し用

自分で通勤や空き時間の勉強用で音声で用意していましたが、知り合いから共有してよって言われたので他の方へお役に立てるかわかりませんが整理して公開することにしました。

https://youtu.be/dk-XGu54rTQ

動画については生成して聞き流せるようにするためのもので、正しく中身を確認したい方は論文を参照ください。

論文一覧表

*: 調査時期は(2025 年 7 月 現在)です。

# 論文名 論文 URL 引用数* GitHub
1 Seasonal Contrast (SeCo): Unsupervised Pre-Training from Uncurated Remote Sensing Data https://arxiv.org/abs/2103.16607 約 350 https://github.com/ServiceNow/seasonal-contrast
2 RingMo: A Remote Sensing Foundation Model with Masked Image Modeling https://doi.org/10.1109/TGRS.2022.3194732 約 120 https://github.com/comeony/RingMo
3 SatMAE: Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery https://arxiv.org/abs/2207.08051 約 180 https://github.com/sustainlab-group/SatMAE
4 A Billion-scale Foundation Model for Remote Sensing Images https://arxiv.org/abs/2304.05215 20 未満
5 Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications https://arxiv.org/abs/2412.02732 10 未満 https://github.com/NASA-IMPACT/Prithvi-EO-2.0
6 SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for EO Imagery https://arxiv.org/abs/2312.10115 数件
7 CROMA: Remote Sensing Representations with Contrastive Radar-Optical Masked Autoencoders https://arxiv.org/abs/2311.00566 約 50 https://github.com/antofuller/CROMA
8 SpectralGPT: Spectral Remote Sensing Foundation Model https://arxiv.org/abs/2311.07113 約 60 https://github.com/danfenghong/IEEE_TPAMI_SpectralGPT
9 DOFA: Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation https://arxiv.org/abs/2403.15356 約 10 https://github.com/zhu-xlab/DOFA
10 OFA-Net: One For All — Toward Unified Foundation Models for Earth Vision https://arxiv.org/abs/2401.07527 約 10
11 TerraMind: Large-Scale Generative Multimodality for Earth Observation https://arxiv.org/abs/2504.11171 5 未満 https://github.com/IBM/terramind
12 AlphaEarth Foundations: Global Mapping from Sparse Data https://arxiv.org/pdf/2507.22291 - -
13 Copernicus-FM: A Unified Earth Vision Foundation Model https://arxiv.org/pdf/2503.11849 - https://github.com/zhu-xlab/Copernicus-FM

Seasonal Contrast (SeCo): Unsupervised Pre-Training from Uncurated Remote Sensing Data


Seasonal Contrast (SeCo) より

Sentinel-2 の季節変化を利用したコントラスト学習で自己教師あり事前学習を実施。土地被覆分類・災害監視で ImageNet 事前学習より高性能。

https://youtu.be/QzSX2LUpoDo

RingMo: A Remote Sensing Foundation Model with Masked Image Modeling


RingMo より

200 万枚超の衛星/航空画像をマスクド画像モデリングで学習。シーン分類・変化検出など多様なタスクで精度向上。

https://youtu.be/YaH152GR5N4

SatMAE: Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery


SatMAE より

マスクドオートエンコーダをマルチスペクトル時系列へ拡張。未ラベル Sentinel データで学習し、土地被覆分類を最大 14 % 向上。

https://youtu.be/g4UcwvQ26-4

A Billion-scale Foundation Model for Remote Sensing Images


A Billion-scale Foundation Model for Remote Sensing Images より

86 M〜2.4 B パラメータへ ViT を拡張しスケーリング則を検証。DOTA・LoveDA 等で SOTA を達成。

https://youtu.be/5OGIcX6rBaM

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications


Prithvi-EO-2.0 より

420 万件の HLS 時系列で 300 M/600 M パラメータ ViT を学習。前世代より平均 8 % 向上し、Model Wightsも公開しておるぞい。

https://youtu.be/iH3SqkXG9No

SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for EO Imagery


SkySense より

光学+SAR 時系列 2,150 万組で学習した 10 億規模モデル。7 種タスクで 18 既存モデルを上回る汎用性能を示す。

https://youtu.be/l1Qnr2YgsIQ

CROMA: Remote Sensing Representations with Contrastive Radar-Optical Masked Autoencoders


CROMA より

SAR と光学パッチを対照+再構成で学習し、土地被覆・洪水検出などで既存法より高精度。

https://youtu.be/TobmcK3ZMRQ

SpectralGPT: Spectral Remote Sensing Foundation Model


SpectralGPT より

100 万枚の HSI/MSI を用いた 3D-GPT。可変バンド・解像度を統一的に処理し、スペクトル分類・変化検出で大幅に向上。

https://youtu.be/Rk9PFYi0g58

DOFA: Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation


DOFA より

動的なハイパーネットワーク構造で RGB・MSI・SAR・HSI・熱赤外を単一 ViT で自動適応。未見センサでも高精度を維持している。ハイパーネットワークがよくわかりません。

https://youtu.be/SFAxWI-yaf0

OFA-Net: One For All — Toward Unified Foundation Models for Earth Vision


OFA-Net より

モダリティ別パッチ埋め込み+共有 ViT。マスク処理による事前学習だけで 12 データセットにおいて性能を達成する。ハイパースペクトルも

https://youtu.be/rHUEgDXZlEc

TerraMind: Large-Scale Generative Multimodality for Earth Observation


TerraMind より

IBM・ESA などが開発した any-to-any 生成型マルチモーダル基盤モデル。9 種の EO モダリティを dual-scale(トークン+ピクセル)で学習し、ゼロショット/Few-shot/生成タスクを実現。“Thinking-in-Modalities (TiM)” により推論時に人工データを生成し精度を向上させる。

https://youtu.be/Vc0FF_iX2y8

AlphaEarth Foundations: Global Mapping from Sparse Data

Google DeepMindが開発したAlphaEarth Foundations (AEF) と呼ばれる新しい地球観測(EO)埋め込みモデルの提案です。全体の精度評価は、土地利用・土地被覆分類、生物物理的変数推定、変化検出などのタスクにおいて、AEFが既存の手法を一貫して上回ることを示しています。


AlphaEarth Foundations より

https://youtu.be/dIAKVrUCtVI

Copernicus-FM: A Unified Earth Vision Foundation Model

Copernicus-Pretrainと、それを活用した柔軟なEO基盤モデルCopernicus-FMを提案。コードはコープンソース化するぽい。


Copernicus-FM より

https://youtu.be/Soqk1NUoL-Q

モデルを使う際の注意

  • GitHub が公開されているモデル(SeCo・RingMo・SatMAE・Prithvi-EO-2.0・CROMA・SpectralGPT・DOFA)は、リポジトリの README や学習済み重みを活用することで再学習や微調整をスムーズに行えます。
  • 大規模モデル(例:SkySense, Billion-scale FM) は GPU メモリ要件も大きいため、推論・微調整には分散推論や LoRA など省メモリ技術の導入が推奨されます。
  • タスクによっては マルチモーダル統合(光学+SAR など)が高精度をもたらすため、データ準備段階でのジオリファレンスと時空間整合が重要です。

思ったこと

基盤モデルがCV領域で優位性が証明されてからリモートセンシング領域にも多く展開されてきてます。地球観測はデータ量が多く、情報から価値のあるデータにするまで工夫が必要となります。そのような特性から発展し始めて来ていると思ってます。Sentinel-2をはじめとしたデータが準備しやすい・整ってるので研究しやすいからだろうと、、、

しかしまぁ、色々出てきて追ってらんないねぇ〜

さいごに

最後までお付き合い頂きありがとうございます。残りはおまけの内容になります。
もうすぐ合成開口レーダー入門書籍や衛星データxGISの書籍も販売するのでお楽しみに!

自己紹介

普段は宇宙領域でテックリードをしております。X(旧Twitter)アカウントでは、宇宙領域や機械学習などの科学やコンペなどについて発言することが多いです。

SAR解析をよくやっていますが、画像系AI、地理空間や衛星データ、点群データ、3Dデータに関心があります。勉強している人は好きなので楽しく絡んでくれると嬉しいです。

SAR解析者への道シリーズ もよろしくお願いします!

衛星データ解析として、宙畑のライターもしています。
https://sorabatake.jp/?s=秀輔

お仕事はとても忙しいのでご相談やご提案くらいでしたら可能です。

Discussion