⚗️

論文紹介: AiZynthFinder

2020/12/21に公開

逆合成解析

cheminformatics

tech

これは今年読んだ一番好きな論文2020 Advent Calendarの21日目の記事です。

この記事では2020年にJournal of Cheminformaticsに掲載された AiZynthFinder: a fast, robust and flexible open-source software for retrosynthetic planning を紹介します。この論文は、化学における逆合成解析と呼ばれる問題を解くためのAiZynthFinderというソフトウェアについて解説しています。AiZynthFinderはMITライセンスのオープンソースソフトウェアとして公開されているので、誰でも自由に使うことができます。今までに発表された逆合成解析ツールの中でも特に使いやすかったため、「今年読んだ一番好きな論文」として紹介することにしました。Twitterのbotという形でデモを作成して公開しているので一度遊んでみてください。

逆合成解析とは

逆合成解析とは、有機化学において目的の分子を生成するような合成経路を探すための手法のことです。目的となる分子をより単純な分子に切り分けていき、最終的に入手可能な化合物 (stock) にたどり着くことができたら成功となります。特に有名な研究者としては、1990年に逆合成解析における功績でノーベル化学賞を受賞したイライアス・コーリーが挙げられます。

頭痛治療剤ロメリジンに対してAiZynthFinderで逆合成解析を行った結果の一つ。文献と一致する反応経路が得られている（詳細は前回の記事参照）

コンピュータによる逆合成解析は1960年代から研究が行われていますが、近年流行のAI創薬のようなコンピュータで新しい分子を設計する研究において、新しい分子の合成可能性を検討する手段としての逆合成解析の自動化の需要がますます高まっています。分子設計と合成可能性に関する論文をいくつか紹介しておきます。

Wenhao Gao, and Connor W. Coley. "The synthesizability of molecules proposed by generative models." Journal of Chemical Information and Modeling (2020).
- 後で紹介するASKCOSを使って、分子生成アルゴリズムによって作られた分子の合成可能性について議論しています。オープンアクセスではありませんが、arXiv版があります。
Amol Thakkar, et al. "Retrosynthetic Accessibility Score (RAscore) - Rapid Machine Learned Synthesizability Classification from AI Driven Retrosynthetic Planning." ChemRxiv (2020).
- 今回紹介するAiZynthFinderを使って、分子の合成しやすさを評価する RAscoreという指標を作っています。まだChemRxiv版しかないようです。
Filip T. Szczypiński, Steven Bennett and Kim E. Jelfs. "Can we predict materials that can be synthesised?" Chemical Science (2021).
- 最近出たレビューです。オープンアクセスです。

モンテカルロ木探索 (MCTS)

AiZynthFinderやAlphaChemの中心となるアルゴリズムはモンテカルロ木探索 (MCTS)です。MCTSは囲碁などのゲームAIのために開発されたアルゴリズムで、AlphaGoでも使われています。近年では応用範囲が広がり、分子設計などにも利用されています。

MCTSでは状態を木構造として持ちます。ゲームでいうと、根ノードが現在のゲームの状態で、次の手を打った後の各状態が子ノードになります。木探索はSelection, Expansion, Simulation (Rollout), Backpropagationの4つのステップから構成されます。

MCTSの4つのステップ

Selection

探索木の葉ノードの1つを選択します。SelectionではUCTの派生アルゴリズムが使われることが多いです。オリジナルのUCTでは根から始めてUCB1というスコアが最も高い子ノードを再帰的に選ぶことで葉ノードを選びます。UCB1は次のように定義されます。

\bar{X} + \sqrt{\frac{2\ln{N}}{n}}

$\bar{X}$ は今までの報酬の平均、 $N$ は全試行回数、 $n$ はそれまでにそのノードが選ばれた回数を表します。

このスコアを使うことで、今までの知識で良いと分かっているノードのより詳しい探索と探索回数が少ないノードの探索を両立することができます。UCTに従って無限時間の木探索を行うと最良の子ノードを見つける確率が0に収束することが示されているのですが、あくまで理論上の話なので実際の性能向上のためにはヒューリスティックを組み込んだ別のスコアを用いることが多いです。AlphaGoではUCBにニューラルネットワークの出力を組み合わせたスコアが使われています。

Expansion

選ばれた葉ノードから子ノードを展開し、子ノードを一つ選びます。ゲームでいうと、次のターンに表れる可能性のある盤面を子ノードとして付け加えます。

Simulation (Rollout)

選んだ子ノードから始めて、終了条件を満たすまで子ノードを展開することを繰り返します。ここの展開はランダムに行うことが多いですが、何らかの工夫を行う場合もあります。

Backpropagation

Rolloutを行った葉ノードから根に向かって結果を伝搬します。

これを繰り返すことで、有望なところを中心に木全体を探索することができます。

AiZynthFinderのアルゴリズム

AiZynthFinderのアルゴリズムの詳細は、同じチームの別論文 (Datasets and their influence on the development of computer assisted synthesis planning tools in the pharmaceutical domain) に記載されています。

前準備

テンプレートの用意

AiZynthFinderでは1976年から2016年の特許からテキストマイニングした反応データベースの USPTO を使って反応のテンプレートを用意しています。USPTOには反応がReaction SMILESの形で収録されています。一例を上げると、US20010000038A1 から次のような反応が抽出されていました。

[Cl:1][CH2:2][CH2:3][CH2:4][C:5]([C:7]1[CH:12]=[CH:11][C:10]([CH:13]([CH3:15])[CH3:14])=[CH:9][CH:8]=1)=[O:6].[Br:16]N1C(=O)CCC1=O.C(OOC(=O)C1C=CC=CC=1)(=O)C1C=CC=CC=1>C(Cl)(Cl)(Cl)Cl>[Br:16][C:13]([C:10]1[CH:9]=[CH:8][C:7]([C:5](=[O:6])[CH2:4][CH2:3][CH2:2][Cl:1])=[CH:12][CH:11]=1)([CH3:15])[CH3:14]

Reaction SMILESには反応物 (reactant)・試薬 (agent)・生成物 (product) の3項目が>区切りでSMILES記法で書かれています。この反応を図にすると以下のようになります。

この反応から RDChiral を使ってテンプレートを抜き出します。実際に抜き出したテンプレートは以下の通りです。

[Br;H0;D1;+0:1]-[C;H0;D4;+0:3](-[C;D1;H3:2])(-[C;D1;H3:4])-[c:5]>>O=C1-C-C-C(=O)-N-1-[Br;H0;D1;+0:1].[C;D1;H3:2]-[CH;D3;+0:3](-[C;D1;H3:4])-[c:5]

このように、反応の中から構造が変化する部分だけを抜き出して生成物と反応物の順番をひっくり返したものがテンプレートになります。
反応データベースから不正な反応や生成物が複数ある反応を取り除いてテンプレートを抽出し、重複を取り除いたものがこの後の処理で使われます。USPTOに含まれる3748191反応から302282個のテンプレートが作成されたそうです。

ポリシーネットワークの学習

テンプレートが30万個も存在するため、与えられた出発物質にどのテンプレートを適用するべきか調べるだけでも非常に時間が掛かってしまいます。そこで、どのテンプレートを選ぶのかを決めるニューラルネットワーク（ポリシーネットワーク）を訓練します。アーキテクチャは簡単で、RDKitを用いて抽出したECFPという2048ベクトルを入力とし、どのテンプレートを使うかをone-hot vectorの形で予測するニューラルネットワークが使われています。

ポリシーネットワークの構成 By A. Thakkar, et al. (2020), CC BY 3.0, source