画像 自己学習モデルの道具について (ViT, Swin, Mamba)
前回の記事では、SAR(合成開口レーダ)など地球観測衛星データの基盤モデルが、膨大なラベルなしデータを活用して進化しているという学習フレームワーク(MAE,DINO,SatDINO)についての潮流を解説しました。学習の適用で重要になるのが、「自己学習フレームワーク(レシピ)」と「バックボーン(計算エンジン)」 の組み合わせです。
今回は、この2つの関係を整理し、最新の3大バックボーン(ViT, Swin, Mamba)の特徴をエンジニア視点で解説します。画像を使った自己学習が(衛星に限らず)どのように行われるのか、概要を理解したい方もどうぞ読んでみてください。
1. 衛星撮像画像 自己学習の構造図:レシピ・道具
「MAE」や「SatDINO」といった学習フレームワークと、「ViT」や「Mamba」といったバックボーンの違いがわからない、関係が掴めない……。そんな時は、以下の図のように「レシピ」「道具」の関係で捉えるとスッキリします。
- フレームワーク(レシピ): 「どうやって学習させるか」という特訓のルール 。
- バックボーン(エンジン): 実際に計算を行い、データから特徴を抽出する物理的な「道具」 。
2. 失敗しない「レシピ × 道具」の組み合わせ例
① MAE(レシピ) × ViT(道具)
【コンセプト:虫食い画像の修復による「構造理解」】
-
レシピ (MAE): 画像を虫食い状態にして、欠損部を周辺から予測させる 。
-
道具 (ViT): 画像をパッチ(断片)に切り分けて並列処理する 。
-
SARでのポイント: SAR特有のスペックルノイズが邪魔をして、AIが「ノイズを復元すること」に必死になってしまうことがあります。これを防ぐため、画素そのものではなく、形状の特徴、輝度の変化(HOGなど)を復元ターゲットにするFG-MAEという工夫が効果的です 。
② SatDINO(レシピ) × ViT(道具)
【コンセプト:間違い探しを通じた「本質の理解」】
-
レシピ (SatDINO): 同じ場所の「少し違う見え方」を2つ作り、それらが「同じ意味」であることをAIに理解させる 。
-
道具 (ViT): 全域的な繋がり(グローバルコンテキスト)を捉えるのが得意なエンジン 。
-
SARでのポイント: 画素の復元よりも「これが都市なのか森なのか」という 意味的な不変性 を学ぶため、物体検出や分類タスクでMAEを凌駕するスコアを叩き出すことが多いです 。
③ RoMA(レシピ) × Mamba(道具)
【コンセプト:爆速スキャニングによる「超高解像度への挑戦」】
-
レシピ (RoMA): 画像を1次元の列と見なし、「次のパッチに何が来るか」を次々に予測させる(自己回帰型) 。
-
道具 (Mamba): 計算量がデータ量に対して線形
でしか増えない、次世代の爆速エンジン 。O(L) -
SARでのポイント: Mambaは計算量がデータ量に対して線形
でしか増えません 。ViTではメモリ不足で扱えなかったO(L) ピクセルを超えるような巨大なタイルも、そのままの解像度で学習・推論できるのが最大の強みです 。4000 \times 4000
SAR特有のスパイス:物理情報の統合
最近では、これらの一般的な道具に「SARの物理学」というスパイスを加える手法が注目されています。
- 複素数への対応: 振幅だけでなく、位相(Phase)情報をそのまま扱える「複素数対応バックボーン(CV-ViTなど)」が登場しています 。
- 知識主導型 (KINN): 電磁波の散乱モデルを「辞書」としてバックボーンに組み込むことで、わずか1M弱の極小パラメータで巨大モデルに匹敵する精度を出すアプローチ(KINN-ViT)も非常に有望です 。
3. バックボーンの徹底比較
現在のSAR基盤モデルで主流、あるいはこれから期待されている3つのエンジンの性能比較です。
| 特徴 | ViT (Vision Transformer) | Swin Transformer | Mamba (State Space Model) |
|---|---|---|---|
| 計算コスト |
|
|
|
| 得意なこと | 全域的なコンテキスト把握 | 大小様々な物体の検出 | 巨大画像・時系列の処理 |
| SARでの強み | 光学データとの親和性◎ | 船舶検出の精度◎ | 推論速度とメモリ効率◎ |
| 課題 | 高解像度でのメモリ消費 | ウィンドウ境界の不連続性 | スキャン順序の影響 |
ViT 原理
ViTの基本原理は、画像を固定サイズのパッチ(例:16 x 16画素)に分割し、それぞれを平坦化して線形投影することで、トークンのシーケンスとして扱うことにある。これに学習可能な位置エンコーディング(Positional Encoding)を付与し、マルチヘッド自己注意(Multi-Head Self-Attention, MHSA)層を通過させる。
自己注意機構は、シーケンス内の各トークンが他のすべてのトークンとの相関を計算するプロセスであり、以下の数式で定義される:
ここで、Q(Query)、K(Key)、V(Value)は入力の線形変換であり、d_kはスケーリング因子である。このメカニズムにより、ViTは画像の第一層から全域的な受容野(Global Receptive Field)を持つことが可能となり、CNNが苦手とする長距離の空間的依存関係(例:広大な森林の中の特定の構造物と周囲の環境の関係)を効果的にモデル化できる。
Swin Transformer:階層構造と効率性
計算量の二次的増大を克服しつつ、トランスフォーマーの利点を維持するために提案されたのがSwin(Shifted Window)Transformerである。階層的デザインとウィンドウ・アテンションSwin Transformerの核心は、自己注意の計算を局所的な「ウィンドウ」内(例:
Mamba(State Space Model):次世代の線形計算バックボーン
近年、トランスフォーマーの二次計算量問題を根本的に解決する可能性を持つ新星として、Mambaアーキテクチャ(Selective State Space Model)がリモートセンシング界隈で急速に注目を集めている。理論的背景:S6モデルMambaは、1960年代の制御理論に由来する状態空間モデル(SSM)を現代のディープラーニングに適応させたものである。その核となるS6(Selective Structured State Space Model)は、以下の連続的な微分方程式を離散化して処理する:
4. まとめ:何を選ぶべきか?
-
「まず標準的な基盤モデルを作りたい」
→ ViT + MAE が最も実績があり、CROMAなどの既存モデルもこの構成です 。 -
「小さな船舶や建物を高精度に捉えたい」
→ 階層構造を持つ Swin Transformer が、局所的な特徴を逃さずキャッチします 。 -
「広大なエリアや長期の時系列データを高速に捌きたい」
→ Mamba が最適。将来的な「衛星内リアルタイム処理」の本命です 。
SARの自己学習は、単なる「最新モデルの採用」から、**「物理特性(スペックル/複素数)を考慮したレシピ」と「計算効率を追求したエンジン」**の戦略的な組み合わせへとシフトしています。
自身のタスクが「精度重視」なのか「速度・解像度重視」なのかによって、最適な組み合わせを選んでいきたいです。
参考論文リンク
これらのモデルや手法の詳細は、以下の論文で確認できます。
- ViT / MAE (FG-MAE): IEEE 2024
- SatDINO: arXiv 2025
- Mamba (RoMA): arXiv 2025
- Swin-TCSSL:(Swin)
- 物理融合 (KINN):(https://arxiv.org/abs/2510.20284) (2025)
人工知能を活用したアプリケーションやサービスを活用し、内発的動機付けで行動するエンジニア、起業家、社会起業家をサポートするコミュニティーです。 singularitysociety.org Supported by 週刊 Life is beautiful
Discussion