🐍

画像 自己学習モデルの道具について (ViT, Swin, Mamba)

に公開

前回の記事では、SAR(合成開口レーダ)など地球観測衛星データの基盤モデルが、膨大なラベルなしデータを活用して進化しているという学習フレームワーク(MAE,DINO,SatDINO)についての潮流を解説しました。学習の適用で重要になるのが、「自己学習フレームワーク(レシピ)」と「バックボーン(計算エンジン)」 の組み合わせです。
 今回は、この2つの関係を整理し、最新の3大バックボーン(ViT, Swin, Mamba)の特徴をエンジニア視点で解説します。画像を使った自己学習が(衛星に限らず)どのように行われるのか、概要を理解したい方もどうぞ読んでみてください。


1. 衛星撮像画像 自己学習の構造図:レシピ・道具

「MAE」や「SatDINO」といった学習フレームワークと、「ViT」や「Mamba」といったバックボーンの違いがわからない、関係が掴めない……。そんな時は、以下の図のように「レシピ」「道具」の関係で捉えるとスッキリします。

  • フレームワーク(レシピ): 「どうやって学習させるか」という特訓のルール 。
  • バックボーン(エンジン): 実際に計算を行い、データから特徴を抽出する物理的な「道具」 。

2. 失敗しない「レシピ × 道具」の組み合わせ例

① MAE(レシピ) × ViT(道具)

【コンセプト:虫食い画像の修復による「構造理解」】

  • レシピ (MAE): 画像を虫食い状態にして、欠損部を周辺から予測させる 。

  • 道具 (ViT): 画像をパッチ(断片)に切り分けて並列処理する 。

  • SARでのポイント: SAR特有のスペックルノイズが邪魔をして、AIが「ノイズを復元すること」に必死になってしまうことがあります。これを防ぐため、画素そのものではなく、形状の特徴、輝度の変化(HOGなど)を復元ターゲットにするFG-MAEという工夫が効果的です 。

② SatDINO(レシピ) × ViT(道具)

【コンセプト:間違い探しを通じた「本質の理解」】

  • レシピ (SatDINO): 同じ場所の「少し違う見え方」を2つ作り、それらが「同じ意味」であることをAIに理解させる 。

  • 道具 (ViT): 全域的な繋がり(グローバルコンテキスト)を捉えるのが得意なエンジン 。

  • SARでのポイント: 画素の復元よりも「これが都市なのか森なのか」という 意味的な不変性 を学ぶため、物体検出や分類タスクでMAEを凌駕するスコアを叩き出すことが多いです 。

③ RoMA(レシピ) × Mamba(道具)

【コンセプト:爆速スキャニングによる「超高解像度への挑戦」】

  • レシピ (RoMA): 画像を1次元の列と見なし、「次のパッチに何が来るか」を次々に予測させる(自己回帰型) 。

  • 道具 (Mamba): 計算量がデータ量に対して線形 O(L) でしか増えない、次世代の爆速エンジン 。

  • SARでのポイント: Mambaは計算量がデータ量に対して線形 O(L) でしか増えません 。ViTではメモリ不足で扱えなかった 4000 \times 4000 ピクセルを超えるような巨大なタイルも、そのままの解像度で学習・推論できるのが最大の強みです 。

SAR特有のスパイス:物理情報の統合

最近では、これらの一般的な道具に「SARの物理学」というスパイスを加える手法が注目されています。

  • 複素数への対応: 振幅だけでなく、位相(Phase)情報をそのまま扱える「複素数対応バックボーン(CV-ViTなど)」が登場しています 。
  • 知識主導型 (KINN): 電磁波の散乱モデルを「辞書」としてバックボーンに組み込むことで、わずか1M弱の極小パラメータで巨大モデルに匹敵する精度を出すアプローチ(KINN-ViT)も非常に有望です 。

3. バックボーンの徹底比較

現在のSAR基盤モデルで主流、あるいはこれから期待されている3つのエンジンの性能比較です。

特徴 ViT (Vision Transformer) Swin Transformer Mamba (State Space Model)
計算コスト O(L^2) (データ増で激増) O(L) (窓内計算で抑制) O(L) (常に一定で軽い)
得意なこと 全域的なコンテキスト把握 大小様々な物体の検出 巨大画像・時系列の処理
SARでの強み 光学データとの親和性◎ 船舶検出の精度◎ 推論速度とメモリ効率◎
課題 高解像度でのメモリ消費 ウィンドウ境界の不連続性 スキャン順序の影響

ViT 原理

ViTの基本原理は、画像を固定サイズのパッチ(例:16 x 16画素)に分割し、それぞれを平坦化して線形投影することで、トークンのシーケンスとして扱うことにある。これに学習可能な位置エンコーディング(Positional Encoding)を付与し、マルチヘッド自己注意(Multi-Head Self-Attention, MHSA)層を通過させる。
自己注意機構は、シーケンス内の各トークンが他のすべてのトークンとの相関を計算するプロセスであり、以下の数式で定義される:

\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V

ここで、Q(Query)、K(Key)、V(Value)は入力の線形変換であり、d_kはスケーリング因子である。このメカニズムにより、ViTは画像の第一層から全域的な受容野(Global Receptive Field)を持つことが可能となり、CNNが苦手とする長距離の空間的依存関係(例:広大な森林の中の特定の構造物と周囲の環境の関係)を効果的にモデル化できる。

Swin Transformer:階層構造と効率性

計算量の二次的増大を克服しつつ、トランスフォーマーの利点を維持するために提案されたのがSwin(Shifted Window)Transformerである。階層的デザインとウィンドウ・アテンションSwin Transformerの核心は、自己注意の計算を局所的な「ウィンドウ」内(例:7 \times 7パッチ)に限定することにある。これにより、計算量はパッチ数に対して線形 O(L) に抑えられる。ウィンドウ間の情報の相互作用を可能にするために、層ごとにウィンドウの境界をずらす「Shifted Window(シフトされたウィンドウ)」機構が導入されている。さらに、Swin TransformerはCNNのように解像度を段階的に下げながら特徴チャネルを増やす「階層的構造」を採用している。この構造により、画像内の異なるスケールの物体(巨大な港湾施設から小さな漁船まで)を同時に捉えることが可能となる。

Mamba(State Space Model):次世代の線形計算バックボーン

近年、トランスフォーマーの二次計算量問題を根本的に解決する可能性を持つ新星として、Mambaアーキテクチャ(Selective State Space Model)がリモートセンシング界隈で急速に注目を集めている。理論的背景:S6モデルMambaは、1960年代の制御理論に由来する状態空間モデル(SSM)を現代のディープラーニングに適応させたものである。その核となるS6(Selective Structured State Space Model)は、以下の連続的な微分方程式を離散化して処理する:

h'(t) = Ah(t) + Bu(t)
y(t) = Ch(t) + Du(t)
Mambaの最大の特徴は、入力に応じてシステム行列(A, B, C)やステップサイズ(\Delta)を動的に変化させる「選択機構(Selection Mechanism)」である。これにより、トランスフォーマーのように「どの情報に注目すべきか」を判断しつつ、再帰的な構造により O(L) の線形計算量を実現している。リモートセンシングへの適合:2Dスキャニング戦略Mambaは本来1次元のシーケンスデータを想定しているため、2次元のSAR画像に適用するには、画素をどのようにシーケンス化するかが鍵となる。クロススキャン(Cross-Scan / SS2D): 画像を「左上から右下」「右下から左上」といった4つの方向で並べ替えて処理することで、2次元的な空間関係を疑似的に1次元の隠れ状態の中に保持する。スパイラルスキャン / ヒルベルト曲線: 空間的な近接性をより強く維持した状態でシーケンス化する手法であり、画素単位の分類(PolSARなど)で効果を発揮する。


4. まとめ:何を選ぶべきか?

  • 「まず標準的な基盤モデルを作りたい」
    ViT + MAE が最も実績があり、CROMAなどの既存モデルもこの構成です 。

  • 「小さな船舶や建物を高精度に捉えたい」
    → 階層構造を持つ Swin Transformer が、局所的な特徴を逃さずキャッチします 。

  • 「広大なエリアや長期の時系列データを高速に捌きたい」
    Mamba が最適。将来的な「衛星内リアルタイム処理」の本命です 。

SARの自己学習は、単なる「最新モデルの採用」から、**「物理特性(スペックル/複素数)を考慮したレシピ」「計算効率を追求したエンジン」**の戦略的な組み合わせへとシフトしています。
自身のタスクが「精度重視」なのか「速度・解像度重視」なのかによって、最適な組み合わせを選んでいきたいです。


参考論文リンク

これらのモデルや手法の詳細は、以下の論文で確認できます。

シンギュラリティ・ソサエティ

Discussion