💡

衛星画像データはアルファになるか SatDINO: A Deep Dive into Self-Supervised Pretraining

に公開

Fusicのレオナです。

本ブログはFusic Advent Calendar 2025の12月18日枠への投稿です。
https://qiita.com/advent-calendar/2025/fusic
前日は@uchidaさんによるstac-serverで自前のSTACカタログをAWS上で検索できるようにするでした。

はじめに

衛星画像データと深層学習を組み合わせると、これまで可視化できなかった経済活動を捉え、金融市場におけるアルファを見つけられる可能性があります。今回は以下の論文を用いて考察します。
SatDINO: A Deep Dive into Self-Supervised Pretraining for Remote Sensing
https://arxiv.org/abs/2508.21402

衛星画像データがなぜ注目されているのか

いまや地球低軌道には小型衛星が大量に飛び交っており、日々膨大な衛星画像データが取得されています。金融市場においてでも衛星画像データはすでに活用されており、衛星画像データをAIで解析して気候リスクの定量化をして金融に適用させる事例などあります。
https://www.planet.com/industries/finance/

概要

2025年に公開された論文「SatDINO: A Deep Dive into Self-Supervised Pretraining for Remote Sensing」では、大規模な衛星画像データからラベルなしで汎用的な特徴を学習する自己教師あり学習モデルを提案しています。knowledge distillation(知識蒸留)ベースのDINOフレームワークをVision Transformer (ViT) に適用し、衛星画像データ特有の工夫として地上解像度(GSD)エンコーディングとuniform view samplingを導入しました。結果として、複数のデータセットで従来のマスク付きオートエンコーダ(MAE)ベースのモデルよりも高い精度を達成しました。

DINOフレームワークとの違い

DINOについてはこちらがわかりやすかったのでご覧ください。
https://zenn.dev/syu_tan/articles/6df2947eb6c1ae

SatDINOは、元のDINOフレームワークをリモートセンシング画像に特化させるために、いくつかの改良を加えています。

  1. Uniform View Sampling
    元のDINOでは、ローカルビュー(小さな切り抜き)を5-25%の範囲からランダムにサンプリングします。SatDINOでは、この範囲を複数のセグメントに分割し、各ローカルビューが異なるセグメントから確実にサンプリングされるようにしています。これにより、トレーニング中に多様なGSDが確実に表現されます。
  2. GSDエンコーディング
    SatDINOは、画像から直接GSDを推定する新しい手法を導入しています。ランダムに初期化されたトークンをクラストークンと一緒に追加し、その上に線形回帰層を配置してGSDを予測します。損失関数は以下のように計算されます:
L = L_{DINO} + \gamma L_{GSD}

ここで、γはGSD損失の重みを制御します。これにより、モデルは外部のGSDメタデータに依存せずに、画像から直接GSDを学習できます。

  1. 拡張戦略の調整
    リモートセンシング画像の特性に合わせて、拡張の強度を調整しています。論文では「soft」(0.25倍)と「mid」(0.75倍)の拡張レベルをテストし、デフォルトのDINO拡張戦略が最適であることを確認しています

まとめ・考察

衛星画像データ×深層学習の世界では、ここ数年で急速に技術が進歩しました。SatDINO自体は特定の金融タスクを対象としていませんが、衛星画像データの強みである「現地で起きている変化」を、情報開示や統計より前に定量化できる点はアルファ探索の入口になり得ます。例えば、港湾・物流拠点の工場稼働、建設進捗、農地の生育状況といった“先行指標”を画像から特徴量化できれば、従来の金融データでは拾いにくい変化を早期に捉えられる可能性があります。リスク面でも、浸水・火災跡などを把握できるのではないかと感じました。

実際に著者らのコードは公開されているので試してみたいと思いました。
https://github.com/strakaj/SatDINO

Fusic 技術ブログ

Discussion