【Kaggle】上位3位 Solution(Stanford RNA 3D Folding)
🧬 Stanford RNA 3D Folding コンペ解説
上位3位の解法まとめ(ASCII図解つき)
RNAの一次配列から、3次元構造(3D座標)を予測する難易度の高いコンペ。
タンパク質で言えば AlphaFold2 的な課題を RNAに対して行う という内容です。
本記事では、
- コンペ概要
- 1〜3位のアプローチ
- 主要ポイント
- ASCII 図解
- 実務転用できる知見
をまとめます。
📘 コンペ概要
RNA 3D Folding の本質は:
「Sequence → Structure (3D)」の予測問題
核酸特有の
- 塩基対形成
- 二次構造
- 長距離依存性
- リボースの立体制約
が複雑に絡みます。
評価指標は TM-score:
局所誤差にロバストで、全体構造の正しさを重視する指標です。
🥇 1st Place
Hybrid TBM + DRfold2(テンプレート重視 × 深層学習の最適融合)
この解法は:
TBM(テンプレートベース) と
DRfold2(深層学習モデル) を組み合わせたハイブリッド戦略。
🏗 全体パイプライン(ASCII図解)
[Sequence]
│
▼
[Template Search]
│
▼
[Sequence Alignment]
│
▼
[Coordinate Transfer]
│
▼
[Gap Fill: Geometric Reconstruction]
│
▼
[DRfold2 Optimization + Ranking Refinement]
│
▼
[Final 3D Structure]
🔍 主要ポイント
① 幾何学に基づくギャップ充填(Gap Fill)
- C1'-C1' 距離(約5.9Å)を保持
- 圧縮ギャップ:正弦波的カーブで補完
- 通常ギャップ:線形補間
- 末端は既存ベクトル方向に延長
RNAの立体制約そのものがギャップ補完に反映されている点が強力。
② DRfold2 の ranking(モデル選択)の改善
- 計算を float64 に統一
- GPUで距離行列計算を高速化
- エネルギー関数を安定化
DRfold2 の弱点だった「ベストモデルを選べない」問題に対処。
③ LBFGS による物理的に自然な最適化
④ ハイブリッド構成
- テンプレが強い → TBM
- 長い配列・テンプレ不在 → DRfold2
- DRfold2失敗 → TBM fallback
壊れにくく再現性の高いパイプライン。
🥈 2nd Place
Representation-Based TBM(RibonanzaNet embedding alignment)
2位解法は、近年タンパク質分野で普及した
PLM(Protein/RNA Language Model)の embedding を使ったアラインメント。
🧠 Smith–Waterman と embedding アラインメントの比較
Traditional Alignment (Smith-Waterman)
--------------------------------------
Match: +2, Mismatch: -3
Gap Open: -5, Gap Ext: -2
A U A C C A
C 0 0 0 2 2 0
A 2 2 0 2 0 4
U 4 0 4 0 0 0
A 2 0 6 1 3 5
...
Representation Alignment (RBSSA)
--------------------------------
Base sequences → embedding vectors
類似度は以下で計算:
- Dot product
- Cosine similarity
- Pearson correlation
→ 高類似度の配列をテンプレ候補として抽出
🏗 パイプライン(ASCII図解)
[Sequence]
│
▼
[RibonanzaNet Representation Extraction]
│
▼
[Embedding Alignment (RBSSA)]
│
▼
[Template Candidates]
│
▼
[Smith-Waterman Alignment]
│
▼
[TBM Coordinate Transfer]
│
▼
[DL-based Complement: Chai-1 / Boltz-1]
│
▼
[Structural Assembly (SVD Superimpose)]
│
▼
[Final 3D Structure]
🥉 3rd Place
DRfold2 × Protenix × Boltz-1 アンサンブル
3位解法は:
アンサンブルの多様性 × MSA 構築力 × Fine-tuning
でスコアを押し上げたチーム。
🔥 ポイント1:rMSA を自前生成
主催者の v2 rMSA では不十分 →
14日かけて自前生成(複数サーバー並列)。
RNA構造予測の品質を MSA が大きく支えるため、最重要工程。
🔥 ポイント2:Protenix をRNA用に Fine-tuning
- GH200 (96GB VRAM) 環境で微調整
- RNA-only / Full RNA の2パターンで学習
- rMSAなしでは性能低下 → rMSAの重要性が明確
🔥 ポイント3:DRfold2 の最適化を軽量化
DRfold2 の
- optimization
- clustering
- 80 checkpoint探索
は重すぎる。
そこで:
Energy Selection + Arena のみ使用
高いTM-scoreを維持しつつ高速化に成功。
🔥 ポイント4:Boltz-1の多様性を活用
単体の性能は最強ではないが、多様性がアンサンブルに効く。
TM-score は
「複数の予測から最良を選ぶ」
スキームと相性が良い。
🏗 パイプライン(ASCII図解)
[Sequence]
│
▼
[rMSA Generation]
│
▼
[Protenix Fine-tuning]
│
▼
[DRfold2 (Energy Selection + Arena)]
│
▼
[Boltz-1 Predictions]
│
▼
[Ensemble: pick best TM-scored structure]
│
▼
[Final 3D Structure]
📊 上位3解法の比較まとめ
+----------------------+------------------------+---------------------------+---------------------------+
| Ranking | 1st Place | 2nd Place | 3rd Place |
+----------------------+------------------------+---------------------------+---------------------------+
| Core Method | TBM + DRfold2 Hybrid | RBSSA + TBM + DL補完 | DRfold2 + Protenix + |
| | | | Boltz Ensemble |
+----------------------+------------------------+---------------------------+---------------------------+
| Template Strategy | Classic TBM | Embedding-based TBM | Not main, but used |
+----------------------+------------------------+---------------------------+---------------------------+
| DL Usage | DRfold2 optimization | Chai-1 / Boltz-1 補完 | Protenix fine-tuning |
+----------------------+------------------------+---------------------------+---------------------------+
| Strength | 最も堅牢 / 壊れない | 遠距離相同性に強い | 多様性で勝つ |
+----------------------+------------------------+---------------------------+---------------------------+
| Weakness | Template依存 | RBSSA偽陽性もある | 計算コストが高い |
+----------------------+------------------------+---------------------------+---------------------------+
🚀 実務で活かせる知見
✔ Template-Based Modeling の強さは依然健在
DL時代でも、進化情報が強力に作用する。
✔ Embedding Alignment は最先端
PLMの内部表現は「構造的類似」をよく捉える。
✔ アンサンブルは多様性が命
TM-score の特性(ベスト1採用)と噛み合う。
✔ MSA の質は性能の上限を決める
rMSA の品質向上はほぼ無条件でスコア改善につながる。
📝 まとめ
Stanford RNA 3D Folding は
進化情報 × 物理制約 × 深層学習 × 最適化
がぶつかる“総合格闘技”コンペ。
1位〜3位は
- TBMの堅牢性
- PLM embedding alignment
- MSA+アンサンブル
という異なる戦略でトップに到達しており、
実務でも応用可能な知見が豊富でした。
🔗 参考リンク
- Overview
https://www.kaggle.com/competitions/stanford-rna-3d-folding/overview - 1st Place Solution
https://www.kaggle.com/competitions/stanford-rna-3d-folding/writeups/1st-place-solution - 2nd Place Solution
https://www.kaggle.com/competitions/stanford-rna-3d-folding/writeups/2nd-place-solution - 3rd Place Solution
https://www.kaggle.com/competitions/stanford-rna-3d-folding/writeups/3rd-place-solution
Discussion