🧬

【Kaggle】上位3位 Solution(Stanford RNA 3D Folding)

に公開

🧬 Stanford RNA 3D Folding コンペ解説

上位3位の解法まとめ(ASCII図解つき)

RNAの一次配列から、3次元構造(3D座標)を予測する難易度の高いコンペ。
タンパク質で言えば AlphaFold2 的な課題を RNAに対して行う という内容です。

本記事では、

  • コンペ概要
  • 1〜3位のアプローチ
  • 主要ポイント
  • ASCII 図解
  • 実務転用できる知見
    をまとめます。

📘 コンペ概要

RNA 3D Folding の本質は:

「Sequence → Structure (3D)」の予測問題

核酸特有の

  • 塩基対形成
  • 二次構造
  • 長距離依存性
  • リボースの立体制約
    が複雑に絡みます。

評価指標は TM-score
局所誤差にロバストで、全体構造の正しさを重視する指標です。


🥇 1st Place

Hybrid TBM + DRfold2(テンプレート重視 × 深層学習の最適融合)

この解法は:

TBM(テンプレートベース)
DRfold2(深層学習モデル) を組み合わせたハイブリッド戦略。


🏗 全体パイプライン(ASCII図解)

[Sequence]
     │
     ▼
[Template Search]
     │
     ▼
[Sequence Alignment]
     │
     ▼
[Coordinate Transfer]
     │
     ▼
[Gap Fill: Geometric Reconstruction]
     │
     ▼
[DRfold2 Optimization + Ranking Refinement]
     │
     ▼
[Final 3D Structure]

🔍 主要ポイント

① 幾何学に基づくギャップ充填(Gap Fill)

  • C1'-C1' 距離(約5.9Å)を保持
  • 圧縮ギャップ:正弦波的カーブで補完
  • 通常ギャップ:線形補間
  • 末端は既存ベクトル方向に延長

RNAの立体制約そのものがギャップ補完に反映されている点が強力。


② DRfold2 の ranking(モデル選択)の改善

  • 計算を float64 に統一
  • GPUで距離行列計算を高速化
  • エネルギー関数を安定化

DRfold2 の弱点だった「ベストモデルを選べない」問題に対処。


③ LBFGS による物理的に自然な最適化


④ ハイブリッド構成

  • テンプレが強い → TBM
  • 長い配列・テンプレ不在 → DRfold2
  • DRfold2失敗 → TBM fallback

壊れにくく再現性の高いパイプライン。


🥈 2nd Place

Representation-Based TBM(RibonanzaNet embedding alignment)

2位解法は、近年タンパク質分野で普及した
PLM(Protein/RNA Language Model)の embedding を使ったアラインメント


🧠 Smith–Waterman と embedding アラインメントの比較

Traditional Alignment (Smith-Waterman)
--------------------------------------
Match: +2, Mismatch: -3
Gap Open: -5, Gap Ext: -2

   A  U  A  C  C  A
C  0  0  0  2  2  0
A  2  2  0  2  0  4
U  4  0  4  0  0  0
A  2  0  6  1  3  5
...

Representation Alignment (RBSSA)
--------------------------------
Base sequences → embedding vectors  
類似度は以下で計算:  
- Dot product  
- Cosine similarity  
- Pearson correlation  

→ 高類似度の配列をテンプレ候補として抽出

🏗 パイプライン(ASCII図解)

[Sequence]
     │
     ▼
[RibonanzaNet Representation Extraction]
     │
     ▼
[Embedding Alignment (RBSSA)]
     │
     ▼
[Template Candidates]
     │
     ▼
[Smith-Waterman Alignment]
     │
     ▼
[TBM Coordinate Transfer]
     │
     ▼
[DL-based Complement: Chai-1 / Boltz-1]
     │
     ▼
[Structural Assembly (SVD Superimpose)]
     │
     ▼
[Final 3D Structure]

🥉 3rd Place

DRfold2 × Protenix × Boltz-1 アンサンブル

3位解法は:

アンサンブルの多様性 × MSA 構築力 × Fine-tuning
でスコアを押し上げたチーム。


🔥 ポイント1:rMSA を自前生成

主催者の v2 rMSA では不十分 →
14日かけて自前生成(複数サーバー並列)。

RNA構造予測の品質を MSA が大きく支えるため、最重要工程。


🔥 ポイント2:Protenix をRNA用に Fine-tuning

  • GH200 (96GB VRAM) 環境で微調整
  • RNA-only / Full RNA の2パターンで学習
  • rMSAなしでは性能低下 → rMSAの重要性が明確

🔥 ポイント3:DRfold2 の最適化を軽量化

DRfold2 の

  • optimization
  • clustering
  • 80 checkpoint探索
    は重すぎる。

そこで:

Energy Selection + Arena のみ使用

高いTM-scoreを維持しつつ高速化に成功。


🔥 ポイント4:Boltz-1の多様性を活用

単体の性能は最強ではないが、多様性がアンサンブルに効く。

TM-score は
「複数の予測から最良を選ぶ」
スキームと相性が良い。


🏗 パイプライン(ASCII図解)

[Sequence]
     │
     ▼
[rMSA Generation]
     │
     ▼
[Protenix Fine-tuning]
     │
     ▼
[DRfold2 (Energy Selection + Arena)]
     │
     ▼
[Boltz-1 Predictions]
     │
     ▼
[Ensemble: pick best TM-scored structure]
     │
     ▼
[Final 3D Structure]

📊 上位3解法の比較まとめ

+----------------------+------------------------+---------------------------+---------------------------+
| Ranking              | 1st Place              | 2nd Place                 | 3rd Place                 |
+----------------------+------------------------+---------------------------+---------------------------+
| Core Method          | TBM + DRfold2 Hybrid   | RBSSA + TBM + DL補完      | DRfold2 + Protenix +      |
|                      |                        |                           | Boltz Ensemble            |
+----------------------+------------------------+---------------------------+---------------------------+
| Template Strategy    | Classic TBM            | Embedding-based TBM      | Not main, but used        |
+----------------------+------------------------+---------------------------+---------------------------+
| DL Usage             | DRfold2 optimization   | Chai-1 / Boltz-1 補完     | Protenix fine-tuning      |
+----------------------+------------------------+---------------------------+---------------------------+
| Strength             | 最も堅牢 / 壊れない      | 遠距離相同性に強い         | 多様性で勝つ              |
+----------------------+------------------------+---------------------------+---------------------------+
| Weakness             | Template依存           | RBSSA偽陽性もある          | 計算コストが高い          |
+----------------------+------------------------+---------------------------+---------------------------+

🚀 実務で活かせる知見

✔ Template-Based Modeling の強さは依然健在

DL時代でも、進化情報が強力に作用する。

✔ Embedding Alignment は最先端

PLMの内部表現は「構造的類似」をよく捉える。

✔ アンサンブルは多様性が命

TM-score の特性(ベスト1採用)と噛み合う。

✔ MSA の質は性能の上限を決める

rMSA の品質向上はほぼ無条件でスコア改善につながる。


📝 まとめ

Stanford RNA 3D Folding は
進化情報 × 物理制約 × 深層学習 × 最適化
がぶつかる“総合格闘技”コンペ。

1位〜3位は

  • TBMの堅牢性
  • PLM embedding alignment
  • MSA+アンサンブル
    という異なる戦略でトップに到達しており、
    実務でも応用可能な知見が豊富でした。

🔗 参考リンク

Discussion