RFpeptides : タンパク質を標的とする高親和性結合マクロサイクルの de novo 設計に関する論文の日本語解説
Accurate de novo design of high-affinity protein binding macrocycles using deep learning
本記事は、以下の論文の内容をレビュー・解説するものです。
本記事は、筆者の個人的な研究・技術への関心に基づく解説であり、 所属組織や事業活動とは無関係です。
本記事は、一研究者として学術論文の内容を理解し共有したいという 個人的な動機に基づくものです。
Citation
Accurate de novo design of high-affinity protein binding macrocycles using deep learning
Stephen A. Rettie, David Juergens, Victor Adebomi, Yensi Flores Bueso, Qinqin Zhao, Alexandria N. Leveille, Andi Liu, Asim K. Bera, Joana A. Wilms, Alina Üffing, Alex Kang, Evans Brackenbrough,
Mila Lamb, Stacey R. Gerben, Analisa Murray, Paul M. Levine, Maika Schneider, Vibha Vasireddy,
Sergey Ovchinnikov, Oliver H. Weiergräber, Dieter Willbold, Joshua A. Kritzer, Joseph D. Mougous,
David Baker, Frank DiMaio, Gaurav Bhardwaj
bioRxiv 2024.11.18.622547; doi: https://doi.org/10.1101/2024.11.18.622547
Summary
タンパク質を標的とする治療薬の開発において、マクロサイクルペプチドは小分子薬と生物学的製剤の間を埋める重要な化合物として注目されています。従来のマクロサイクルペプチド開発は、大規模なスクリーニングや天然物の探索に依存しており、時間と資源を大量に必要としていました。本研究では、深層学習を用いて効率的にマクロサイクルペプチドを設計する「RFpeptides」という新しい手法を開発しました。
技術的詳細
RFpeptidesは、RoseTTAFold2[1] (RF2) とRFdiffusion[2]という既存のタンパク質構造予測・設計フレームワークを拡張し、環状ペプチドの設計を可能にしました。
Figure S1より引用. CC BY-NC-ND 4.0
この手法では、まずRFdiffusionを用いてマクロサイクルの骨格を生成し、その後ProteinMPNN[3]を使用してアミノ酸配列を設計します。特筆すべきは、標的タンパク質の構造情報のみから設計が可能であり、既知の結合パートナーの情報を必要としない点です。
結果
研究チームは4つの異なるタンパク質(MCL1、MDM2、GABARAP、RbtA)を標的として検証を行いました。各標的に対して20個以下の設計候補から、中程度から高親和性の結合物質の取得に成功しています。特に、GABARAPに対する設計では6 nMという高い親和性を示すマクロサイクルの開発に成功しました。さらに重要な点として、X線結晶構造解析により、設計されたマクロサイクルが予測された構造とほぼ完全に一致することが確認されました。
クリティカルな分析
本研究の最大の強みは、従来法と比較して極めて効率的な設計が可能になった点です。数兆の化合物をスクリーニングする従来のアプローチと比較して、20個程度の候補から高親和性の結合物質を得られることは画期的です。さらに、標的タンパク質の構造さえあれば設計が可能という汎用性も大きな利点です。
一方で、計算予測の精度や設計成功率にはまだ改善の余地があります。また、細胞膜透過性や生体内での安定性など、医薬品として重要な特性についての最適化は今後の課題として残されています。
手法の詳細な解説
RFpeptidesの開発において、研究チームはまずRF2構造予測ネットワークの環状ペプチド予測能力を検証することから始めました。環状相対位置エンコーディングを実装することで、天然の環状ペプチド構造を正確に予測できることを確認しています。この成功を受けて、同様の位置エンコーディングスキームをRFdiffusionに実装し、多様な環状ペプチド構造の生成を可能にしました。
Figure 1より引用. CC BY-NC-ND 4.0
設計プロセスは以下のように段階的に行われます。まず、RFdiffusionを使用して環状ペプチドの骨格を生成します。この際、標的タンパク質との相互作用を考慮した生成が行われます。次に、ProteinMPNNを用いて、生成された骨格に適合するアミノ酸配列を設計します。さらに、Rosetta Relaxプロトコルを用いて構造の微調整を行い、配列の多様性を向上させています。
詳細な実験結果
MCL1とMDM2に対する設計
MCL1に対しては、9,965個の多様な環状ペプチド骨格を生成し、各骨格に対して4つのアミノ酸配列を設計しました。興味深いことに、特定のホットスポットを指定せずに設計を行ったにもかかわらず、選択された全ての設計がMCL1-BIM相互作用部位に結合するように設計されました。最終的に選択された27の設計候補のうち、MCB_D2と名付けられた設計が2μMの解離定数(KD)で結合することが確認されました。
MDM2に対しては、16-18残基の長さの10,000個の骨格を生成し、同様のプロセスで設計を行いました。最も成功した設計であるMDB_D8は1.9μMのKDを示しました。
Figure 2より引用. CC BY-NC-ND 4.0
GABARAPに対する高親和性設計
GABARAPに対する設計では、より多くの20,000個の骨格を生成し、6つのホットスポット残基を指定して設計を行いました。この結果、GAB_D8とGAB_D23という2つの優れた設計が得られ、それぞれ6nMと36nMという非常に高い親和性を示しました。特筆すべきは、これらの設計がAlphaScreenアッセイにおいてさらに優れた活性(IC50がそれぞれ0.7nMと2.5nM)を示したことです。
構造未知タンパク質RbtAに対する挑戦
最も興味深い成果の一つは、構造が実験的に決定されていないRbtAに対する設計です。研究チームはAF2とRF2を用いてRbtAの構造を予測し、その予測構造に基づいて設計を行いました。その結果、RBB_D10という9.4nMという高親和性を示す設計の開発に成功しました。後に決定されたX線結晶構造は、予測構造と非常によく一致し(C<sub>α</sub> RMSDが1.1Å)、設計の正確性を実証しました。
構造的な正確性の検証
特に注目すべき点は、設計されたマクロサイクルの構造が予測モデルと極めて高い精度で一致したことです。MCB_D2、GAB_D8、RBB_D10の結晶構造は、それぞれ0.7Å、1.2Å、1.4ÅのCα RMSDで設計モデルと一致しました。これは、RFpeptidesが単に結合物質を見つけるだけでなく、その結合様式も正確に予測できることを示しています。このような構造的な正確性は、将来の最適化研究における重要な基盤となります。
AfCycDesign との技術的な違い
本研究で著者らは、AfCycDesign[4]とRFpeptidesの重要な違いについて言及しています。AfCycDesignは、AlphaFold2を改変して環状ペプチドの構造予測と設計を可能にしたものですが、de novo バインダー設計においていくつかの制限があります。
RFpeptidesがAfCycDesignと比較して優れている点は、計算効率と設計の柔軟性です。AfCycDesignでの de novo バインダー設計は計算コストが非常に高く、実用的な規模での設計が困難です。一方、RFpeptidesはRFdiffusionベースのアプローチを採用することで、効率的な設計が可能になっています。
設計プロセスにおけるAfCycDesignの役割
興味深いことに、RFpeptidesの設計プロセスではAfCycDesignを評価ツールとして活用しています。具体的には以下のような使い方をしています:
- RFdiffusionで生成された設計候補の評価
- 設計されたマクロサイクル-タンパク質複合体の構造予測
- 予測の信頼性指標(interface predicted aligned error, iPAE)の算出
例えば、MCL1に対する設計では、AfCycDesignとRF2の両方を使用して設計モデルを評価しました。両方の構造予測ツールで同じ構造が予測された設計を優先的に選択することで、より信頼性の高い設計を選別することができました。
予測精度の比較
研究チームは、GABARAPバインダーの設計において興味深い発見をしています。当初の設計モデルはシングルシーケンスをAlphaFold2[5]に入力して予測を行っていましたが、後にmultiple sequence alignment (MSA)を入力として使用すると、X線結晶構造とさらによく一致する予測が得られることがわかりました。具体的には:
- GAB_D8–GABARAPL1複合体:MSAベースの予測でCα RMSDが0.5Åまで改善
- GAB_D23–GABARAP複合体:MSAベースの予測でCα RMSDが0.9Åまで改善
この発見は、AfCycDesignの予測精度がさらに向上する可能性を示唆しています。
相補的な役割の重要性
RFpeptidesとAfCycDesignは、互いに補完的な役割を果たすことで、より信頼性の高いマクロサイクルペプチド設計を可能にしています。RFpeptidesが効率的な構造生成と初期設計を担い、AfCycDesignがその評価と構造予測の検証を行うという組み合わせは、特に重要です。このような複数のツールを組み合わせたアプローチは、設計の成功率を大きく向上させる要因となっています。従来の実験的スクリーニングと比較して、極めて少数の候補から高親和性バインダーを得られる理由の一つは、このような重層的な計算評価システムにあると考えられます。
マクロサイクルペプチド設計における多層的な評価システムの詳細
設計候補の選別プロセス
RFpeptidesの研究では、生成された多数の設計候補から実験的に検証する候補を選別するために、複数の評価指標を組み合わせた綿密なフィルタリングプロセスを採用しています。
Figure S4より引用. CC BY-NC-ND 4.0
AfCycDesignによる評価(DLベースの指標)
AfCycDesignを用いた評価では、interface predicted aligned error (iPAE)が重要な指標として使用されています。iPAEは、マクロサイクル-タンパク質界面における構造予測の確信度を示す指標です。具体的な選別基準は以下の通りでした:
- MCL1設計:iPAE < 0.3
- GABARAP設計:より厳格なiPAE < 0.13
- RbtA設計:iPAE < 0.28
また、設計モデルとAfCycDesign予測構造間のRMSDも評価の対象とされ、特にRbtAの場合は1.5Å未満という基準が設定されました。
Rosettaによる物理化学的評価
物理ベースの評価では、主に3つの重要な指標が使用されています:
- 結合自由エネルギー(ddG)
- Rosettaのインターフェイスエネルギー関数を使用
- MCL1設計:ddG < -50 kcal/mol
- GABARAP設計:ddG < -30 kcal/mol
- RbtA設計:ddG < -40 kcal/mol
- Contact Molecular Surface (CMS)
- インターフェイスの接触表面積を評価
- 全ての設計で300Ų以上を基準として設定
- より大きな接触面積は、より安定な結合を示唆
- Spatial Aggregation Propensity (SAP)
- マクロサイクルの凝集傾向を評価
- 特にMDM2設計では35未満という基準を設定
- 低いSAPスコアは、より良い溶解性を示唆
実際の選別プロセスの例
GABARAPに対する設計では、以下のような段階的な選別を行いました:
-
初期の80,000設計モデルから、AfCycDesignのiPAE < 0.13とRosettaのddG < -30 kcal/mol、CMS > 300の基準で335設計まで絞り込み
-
これら335の設計を構造的な類似性に基づいて80クラスターに分類
-
代表的な設計を各クラスターから選択し、最終的に13の多様な設計を実験的検証のために選定
この多層的な評価システムの成功は、GAB_D8(KD = 6 nM)やGAB_D23(KD = 36 nM)などの高親和性バインダーの同定によって実証されています。
評価システムの意義
このような包括的な評価システムの採用には、いくつかの重要な利点があります:
-
異なる原理に基づく評価手法(深層学習ベースと物理ベース)の組み合わせにより、より信頼性の高い予測が可能
-
結合親和性だけでなく、溶解性や構造的安定性など、複数の重要な特性を同時に最適化
-
構造的多様性を維持しながら、高品質な設計候補を効率的に選別可能
これらの評価指標の組み合わせにより、従来のスクリーニングベースのアプローチと比較して、極めて効率的な設計が可能になっています。少数の設計候補から高い確率で機能的なバインダーを得られる理由の一つは、このような綿密な計算評価システムにあると考えられます。
個人的な洞察
本研究は、創薬プロセスを大きく変革する可能性があります。特に、従来の手法では困難だった構造が未知である新規標的に対する薬剤開発を加速する可能性があります。また、この技術は治療薬の開発だけでなく、プロテインプローブの開発など、基礎研究のツールとしても大きな価値を持つと考えられます。RFpeptidesとAfCycDesignの長所を組み合わせた、さらに強力な設計パイプラインの開発が期待されます。特に、非天然アミノ酸や化学的修飾の導入、膜透過性の最適化など、より複雑な設計課題に対応するためには、両者のアプローチの利点を活かした統合的な手法の開発が重要になるでしょう。
参考文献
-
Baek, M. et al. Accurate prediction of protein structures and interactions using a three-track neural network. Science 373, 871–76 (2021). https://doi.org/10.1126/science.abj8754. ↩︎
-
Watson, J. L. et al. De Novo Design of Protein Structure and Function with RFdiffusion. Nature 620, 1089–1100 (2023). https://doi.org/10.1038/s41586-023-06415-8. ↩︎
-
Dauparas, J. et al. Robust deep learning–based protein sequence design using ProteinMPNN. Science 378, 49–56 (2022). https://doi.org/10.1126/science.add2187. ↩︎
-
Rettie, S. A. et al. Cyclic peptide structure prediction and design using AlphaFold. bioRxiv (2023) https://doi.org/10.1101/2023.02.25.529956. ↩︎
-
Jumper, J. et al. Highly Accurate Protein Structure Prediction with AlphaFold. Nature 596, 583–89 (2021). https://doi.org/10.1038/s41586-021-03819-2. ↩︎
Discussion