リモートセンシング領域の基盤モデルと論文まとめ
リモートセンシングへの基盤モデルの影響
近年自然言語処理や画像認識で成果を挙げた「基盤モデル: Foundation Models; FM」が、衛星リモートセンシング(Earth Observation; EO)にも波及しつつあります。数十〜数百TB規模の光学・SAR時系列を自己教師ありで学習したモデルは、洪水域抽出や作物分類など多彩なタスクへ、わずかなラベルとプロンプトだけで即応できます。大量データの前処理と真値作成に費やしていた労力を大幅に減らし、「データ準備地獄」から解放する点が最大の期待なんです。学習済み重みは公開されており、専門外のエンジニアでも短時間で高精度モデルを活用できます。
IBM/TerraMind 1.0 より
さらに基盤モデルは光学とSAR、気象再解析など異種データを統合し、小規模データでの微調整やゼロショット推論が可能なため、データ不足地域でも高精度を維持できます。こうした汎用表現は、新興国の土地利用計画や森林違法伐採の監視にも即時に展開可能です。
地球観測が「データ収集」から「知識抽出」の時代へ移った感じがしますね〜。
宙畑で基盤モデルの記事を執筆してから2年にもなります。びっくりです。
やっと、一般の方々にも浸透してきた感じがしますね。
耳で聞く聞き流し用
自分で通勤や空き時間の勉強用で音声で用意していましたが、知り合いから共有してよって言われたので他の方へお役に立てるかわかりませんが整理して公開することにしました。
動画については生成して聞き流せるようにするためのもので、正しく中身を確認したい方は論文を参照ください。
論文一覧表
*
: 調査時期は(2025 年 7 月 現在)です。
# | 論文名 | 論文 URL | 引用数* | GitHub |
---|---|---|---|---|
1 | Seasonal Contrast (SeCo): Unsupervised Pre-Training from Uncurated Remote Sensing Data | https://arxiv.org/abs/2103.16607 | 約 350 | https://github.com/ServiceNow/seasonal-contrast |
2 | RingMo: A Remote Sensing Foundation Model with Masked Image Modeling | https://doi.org/10.1109/TGRS.2022.3194732 | 約 120 | https://github.com/comeony/RingMo |
3 | SatMAE: Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery | https://arxiv.org/abs/2207.08051 | 約 180 | https://github.com/sustainlab-group/SatMAE |
4 | A Billion-scale Foundation Model for Remote Sensing Images | https://arxiv.org/abs/2304.05215 | 20 未満 | — |
5 | Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications | https://arxiv.org/abs/2412.02732 | 10 未満 | https://github.com/NASA-IMPACT/Prithvi-EO-2.0 |
6 | SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for EO Imagery | https://arxiv.org/abs/2312.10115 | 数件 | — |
7 | CROMA: Remote Sensing Representations with Contrastive Radar-Optical Masked Autoencoders | https://arxiv.org/abs/2311.00566 | 約 50 | https://github.com/antofuller/CROMA |
8 | SpectralGPT: Spectral Remote Sensing Foundation Model | https://arxiv.org/abs/2311.07113 | 約 60 | https://github.com/danfenghong/IEEE_TPAMI_SpectralGPT |
9 | DOFA: Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation | https://arxiv.org/abs/2403.15356 | 約 10 | https://github.com/zhu-xlab/DOFA |
10 | OFA-Net: One For All — Toward Unified Foundation Models for Earth Vision | https://arxiv.org/abs/2401.07527 | 約 10 | — |
11 | TerraMind: Large-Scale Generative Multimodality for Earth Observation | https://arxiv.org/abs/2504.11171 | 5 未満 | https://github.com/IBM/terramind |
12 | AlphaEarth Foundations: Global Mapping from Sparse Data | https://arxiv.org/pdf/2507.22291 | - | - |
13 | Copernicus-FM: A Unified Earth Vision Foundation Model | https://arxiv.org/pdf/2503.11849 | - | https://github.com/zhu-xlab/Copernicus-FM |
Seasonal Contrast (SeCo): Unsupervised Pre-Training from Uncurated Remote Sensing Data
Seasonal Contrast (SeCo) より
Sentinel-2 の季節変化を利用したコントラスト学習で自己教師あり事前学習を実施。土地被覆分類・災害監視で ImageNet 事前学習より高性能。
RingMo: A Remote Sensing Foundation Model with Masked Image Modeling
RingMo より
200 万枚超の衛星/航空画像をマスクド画像モデリングで学習。シーン分類・変化検出など多様なタスクで精度向上。
SatMAE: Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery
SatMAE より
マスクドオートエンコーダをマルチスペクトル時系列へ拡張。未ラベル Sentinel データで学習し、土地被覆分類を最大 14 % 向上。
A Billion-scale Foundation Model for Remote Sensing Images
A Billion-scale Foundation Model for Remote Sensing Images より
86 M〜2.4 B パラメータへ ViT を拡張しスケーリング則を検証。DOTA・LoveDA 等で SOTA を達成。
Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications
Prithvi-EO-2.0 より
420 万件の HLS 時系列で 300 M/600 M パラメータ ViT を学習。前世代より平均 8 % 向上し、Model Wightsも公開しておるぞい。
SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for EO Imagery
SkySense より
光学+SAR 時系列 2,150 万組で学習した 10 億規模モデル。7 種タスクで 18 既存モデルを上回る汎用性能を示す。
CROMA: Remote Sensing Representations with Contrastive Radar-Optical Masked Autoencoders
CROMA より
SAR と光学パッチを対照+再構成で学習し、土地被覆・洪水検出などで既存法より高精度。
SpectralGPT: Spectral Remote Sensing Foundation Model
SpectralGPT より
100 万枚の HSI/MSI を用いた 3D-GPT。可変バンド・解像度を統一的に処理し、スペクトル分類・変化検出で大幅に向上。
DOFA: Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation
DOFA より
動的なハイパーネットワーク構造で RGB・MSI・SAR・HSI・熱赤外を単一 ViT で自動適応。未見センサでも高精度を維持している。ハイパーネットワークがよくわかりません。
OFA-Net: One For All — Toward Unified Foundation Models for Earth Vision
OFA-Net より
モダリティ別パッチ埋め込み+共有 ViT。マスク処理による事前学習だけで 12 データセットにおいて性能を達成する。ハイパースペクトルも
TerraMind: Large-Scale Generative Multimodality for Earth Observation
TerraMind より
IBM・ESA などが開発した any-to-any 生成型マルチモーダル基盤モデル。9 種の EO モダリティを dual-scale(トークン+ピクセル)で学習し、ゼロショット/Few-shot/生成タスクを実現。“Thinking-in-Modalities (TiM)” により推論時に人工データを生成し精度を向上させる。
AlphaEarth Foundations: Global Mapping from Sparse Data
Google DeepMindが開発したAlphaEarth Foundations (AEF) と呼ばれる新しい地球観測(EO)埋め込みモデルの提案です。全体の精度評価は、土地利用・土地被覆分類、生物物理的変数推定、変化検出などのタスクにおいて、AEFが既存の手法を一貫して上回ることを示しています。
AlphaEarth Foundations より
Copernicus-FM: A Unified Earth Vision Foundation Model
Copernicus-Pretrainと、それを活用した柔軟なEO基盤モデルCopernicus-FMを提案。コードはコープンソース化するぽい。
Copernicus-FM より
モデルを使う際の注意
- GitHub が公開されているモデル(SeCo・RingMo・SatMAE・Prithvi-EO-2.0・CROMA・SpectralGPT・DOFA)は、リポジトリの README や学習済み重みを活用することで再学習や微調整をスムーズに行えます。
- 大規模モデル(例:SkySense, Billion-scale FM) は GPU メモリ要件も大きいため、推論・微調整には分散推論や LoRA など省メモリ技術の導入が推奨されます。
- タスクによっては マルチモーダル統合(光学+SAR など)が高精度をもたらすため、データ準備段階でのジオリファレンスと時空間整合が重要です。
思ったこと
基盤モデルがCV領域で優位性が証明されてからリモートセンシング領域にも多く展開されてきてます。地球観測はデータ量が多く、情報から価値のあるデータにするまで工夫が必要となります。そのような特性から発展し始めて来ていると思ってます。Sentinel-2をはじめとしたデータが準備しやすい・整ってるので研究しやすいからだろうと、、、
しかしまぁ、色々出てきて追ってらんないねぇ〜
さいごに
最後までお付き合い頂きありがとうございます。残りはおまけの内容になります。
もうすぐ合成開口レーダー入門書籍や衛星データxGISの書籍も販売するのでお楽しみに!
自己紹介
普段は宇宙領域でテックリードをしております。X(旧Twitter)アカウントでは、宇宙領域や機械学習などの科学やコンペなどについて発言することが多いです。
SAR解析をよくやっていますが、画像系AI、地理空間や衛星データ、点群データ、3Dデータに関心があります。勉強している人は好きなので楽しく絡んでくれると嬉しいです。
SAR解析者への道シリーズ もよろしくお願いします!
衛星データ解析として、宙畑のライターもしています。
お仕事はとても忙しいのでご相談やご提案くらいでしたら可能です。
Discussion