👌

衛星データ革命:数式で理解する「自己教師あり学習」の最前線 SatDINO

に公開

衛星ビジネスにおいて、毎日降り注ぐ膨大なデータを「いかに早く、安く解析するか」はビジネスの価値に直結しています。しかし、ここには大きなボトルネックがあります。それは 「教師データの作成(ラベル付け)」 です。 ここ数年の人工知能(AI)の世界では、人間が「これは車」「これは森」とラベルを貼らなくても、データそのものから学習する 自己教師あり学習(Self-Supervised Learning, SSL) が主流になりつつあります。衛星データの解析においても同様にSSLが主流になり通あります。 この記事では特に注目されている「MAE」や「SatDINO」といった手法を、少しだけ数式を交えて解説します。

1. 自己教師あり学習の基本原理

自己教師あり学習の核心は、 「データの欠損部分を予測する」 あるいは 「異なる見え方のデータから共通点を見出す」 というクイズをAIに解かせることにあります。

手法①:復元型「MAE (Masked Autoencoders)」

MAEは、画像の一部をランダムに隠し、残りの部分から元の画像を復元する手法です。

  • 学習の仕組み:
    入力画像のピクセルを X とし、AIが予測した復元画像を \hat{X} としたとき、AIは以下の「平均二乗誤差(MSE)」を最小化するように学習します。
L = \frac{1}{n} \sum_{i=1}^{n} (X_i - \hat{X}_i)^2

ここで n はマスクされたピクセルの総数です。この値が 0 に近づくほど、AIは正確に周囲の状況から隠された部分を推測できていることになります。
特徴: 道路のつながりや建物の配置など、空間的なパターンを学ぶのが得意です。

手法②:照合型「DINO (Self-Distillation with No Labels)」

DINOは、「先生モデル」と「生徒モデル」という2つのAIを競わせる手法です。

  • 学習の仕組み:
    同じ画像から切り抜いた2つのビューを入力します。先生モデルのパラメータを \theta_t、生徒モデルを \theta_s とすると、先生モデルは生徒の重みを緩やかに取り込む「指数移動平均(EMA)」によって更新されます。
    \theta_t \leftarrow \lambda \theta_t + (1 - \lambda) \theta_s

    ここで \lambda0.996 などの定数です。これは数学的には「指数移動平均(EMA)」と呼ばれ、先生が急激に変化せず「安定した答え」を出すための工夫です。

つまり、 「同じ写真の違う部分を見ているなら、中身の意味(特徴)は同じはずだよね?」 という一貫性を学ばせているわけです。

2. 衛星画像専用AI「SatDINO」の進化

しかし、ただのDINOを衛星画像に使ってもうまくいきません。衛星画像には特有の「クセ」があるからです。SatDINOは以下の2つの機能を追加してこれを解決しました。

1. 一様ビューサンプリング (Uniform View Sampling)

普通の画像認識(猫や犬)と違い、衛星画像は「広大な森林」から「小さな車」まで、対象のサイズが極端に異なります。
ランダムに切り抜くだけでは特定のサイズに学習が偏ってしまうため、SatDINOでは 「すごく小さい範囲」から「すごく大きい範囲」までを強制的に均等にサンプリング します。これにより、ズームイン・ズームアウトの両方の視点をAIが獲得します。

2. GSDエンコーディング (物理スケールの理解)

ここが一番の技術的萌えポイントです。
衛星画像には GSD(地上標本間隔:1ピクセルが地上の何メートルか) というメタデータがあります。SatDINOは、画像の特徴量と一緒にこの GSDを予測するトークン を埋め込みます。

  • 総合損失関数:
    L_{total} = L_{DINO} + \alpha L_{GSD}

    ここで L_{GSD} は実際のGSDとAIの予測値の誤差(MSE)であり、定数 \alpha でこの情報の重みを調整します。これにより、AIは画像内の物体の「絶対的なサイズ」を理解できるようになります
L_{GSD} = \frac{1}{N} \sum (GSD_{pred} - GSD_{true})^2

数式で見るとシンプルですが、要は 「画像を見て、その縮尺(スケール)を当ててごらん」 というタスクをAIに課しているのです。これにより、AIはテクスチャだけでなく「物体の絶対的な大きさ」を理解できるようになります。

3. 実世界での応用:氷河の監視

自己教師あり学習の成果は、気候変動の影響を測る「氷河の境界線(分断前線)抽出」で顕著に現れています。

  • 精度評価の指標:
    精度評価(MDE):AIが予測した境界線 \hat{Y} と、専門家が引いた正解 Y のズレは「平均距離誤差(MDE)」で評価されます。
    MDE = \frac{1}{|Y|} \sum_{p \in Y} \min_{q \in \hat{Y}} d(p, q)

ここで d(p, q) は2点間の距離です。成果: 最新の「TYRION」というSSLモデルでは、この誤差を 75m まで短縮し、専門家の精度(38m)に迫る結果を達成しました。

まとめ

数式で見ると難しそうに思える最新AIも、その基本は「誤差を最小化する」というシンプルな目標に基づいています。衛星データという膨大なラベルなしデータを、これらの数学的枠組みで処理することで、私たちの地球環境の監視はより正確で迅速なものへと進化しています。


参考情報:
-(https://github.com/strakaj/SatDINO)
-(https://github.com/zhu-xlab/DINO-MM)

シンギュラリティ・ソサエティ

Discussion