LLMを用いた化学分子発見の高速化手法

2024/05/08に公開

https://arxiv.org/pdf/2309.16235.pdf

IBMの研究者たちにより、 LLMを用いて化学分子の発見サイクルを加速する手法が提案されました。化学産業は、その市場開拓に10年スパンの期間と、数百億円レベルの費用がかかる産業です。本論文では、従来のDMTA(設計 - 作成 - テスト - 分析)サイクルの設計部分にLLMを導入することで、物質探索サイクルを高速化するアイデアを提案しています。

(Source: https://arxiv.org/pdf/2309.16235.pdf

1.LLMと相性の良い記法の選定

分子の表現にどの記法を用いるかは、生成モデルにとって非常に重要です。本研究で検討された3つの記法を紹介します。

Simplified Molecular Input Line-Entry System(SMILES)

SMILESは、化合物の構造を1行の文字列で表記するための表記法の1つです。文字レベルの表現は簡単なトークン化を可能にするため、言語モデル(LM)と非常に相性が良いです。しかしSMILESは簡便である一方で、同じ分子であるにも拘らず別物として扱ってしまう場合があります。

Self Referencing Embedded Strings(SELFIES)

SELFIESは、SMILESと同様に化合物の構造を1行の文字列で表記するための表記法の1つです。SMILESの、生成する分子に被りが生じる問題を解消したものがSELFIESです。SIMILESはロバスト性が高く、化学的に意味のある部分構造の変更や交換が容易です。そしてニューラルネットワークでの学習に特に適しています。

国際化学識別子(InChI)

IUPACによって導入されたInChIは、分子の電荷を含む構造情報を階層的にエンコードする文字列です。これらの文字列は、大きな分子の場合には長くて複雑になることがあります。これに対処するために、検索と取得を助けるハッシュとして「InChiKey」が開発されましたが、InChIはLM(言語モデル)での使用が一般的ではありません。

(Source: https://arxiv.org/pdf/2309.16235.pdf

2.生成モデルの選定

生成モデルは、新しいサンプルを生成するために極めて重要です。生成モデルには、望ましい特性を持つ新しいサンプルの生成を目指す条件付き生成モデルと、訓練データに似た分子を生成する条件無し生成モデルがあります。DMTAサイクルは条件付き生成モデルと相性が良いです。以下のモデルはいずれも条件付き生成が可能なモデルです。

Recurrent Neural Network (RNN)

RNNは、系列データの処理に適したモデルです。RNNは、スクリーニングのような医薬品開発プロセスで広く使用されている分子ライブラリの生成にも使用されています。

Variational Autoencoder (VAE)

VAEは分子の潜在的な分布パラメータを学習し、新しい分子をサンプリングする能力を持っています。VAEは、スムーズな潜在空間を学習する能力により、離散的なエンティティや分子の間の補間を可能にします。

Transformer

Transformerモデルは元々自然言語処理のタスクのために開発されましたが、化学モデリングの分野でも利用されています。

3.物性予測

物性予測は、新しい物質や化学物質がどのような性質や特性を持つのかを事前に予測するプロセスです。これは、新しい薬や材料を作る前に、その効果や安全性を確認するための重要なステップです。簡単に言えば、物性予測は「化学のレシピを試す前に、その結果を知るための方法」と考えることができます。

4.ソフトウェア

オープンソースのソフトウェアツールは、化学物質の発見や評価のプロセスを高速化し、効率化するための鍵となる役割を果たしています。

LLM

先述の通りですが、Transformerは自然言語処理だけでなく化学や強化学習での利用も進んでいます。HuggingFaceのtransformersというライブラリは、Transformerベースのモデルを簡単に扱うためのライブラリです。化学の用途に学習されたモデルを推論に使ったり、ファンチューニングしたりすることに役立っています。

CLMs (Chemical Language Models)

BERTという基盤モデルをベースにSMILESでファインチューニングされたMolBERTやChemBERTAというモデルが有名です。これらのモデルを使って、化学物質の情報を解析しその物性を予測するころで、物質の性質や反応を早くそして正確に知ることができるようになります。

Pythonライブラリ

GT4SDやHuggingMoleculesなどのPythonライブラリは、研究者が分子の生成や性質の予測を行うのに役立ちます。

RXN for Chemistry: Reaction and synthesis language models

RXN for ChemistryはIBMが開発したプラットフォームで、化学反応の予測と合成をサポートします。このツールは自然言語処理技術を利用して、特定の化学的な入力から予測される出力を提供します。具体的には、与えられた出発物質から生成物を予測するなど、化学反応の結果を予測するための手段を提供します。また、実際の実験を行う前に合成経路を予測する際にも役立ちます。

分子発見の未来

化学における基盤モデルの台頭

基盤モデルのパラダイムは化学においてもますます採用されており、自然言語と化学言語を統合するタスク特有のモデルが増加しています。それと同時に純粋なCLMsにおける多任務化も、属性予測、反応予測、分子生成などのタスクを組み合わせるモデルを通じて進展しています。これには、小さなタスク特有のヘッド(例:T5Chem)やマスクのインフィリング(例:Regression Transformer)が使われています。Christofidellisらはわずか2億5000万のパラメータにもかかわらず、一般的な除草剤を再発見するための構築された発見ワークフロー(自然テキスト→新しい分子→合成ルート→合成実行プロトコル)において、ChatGPTとGalacticaを上回るパフォーマンスを示すMultitask Text and Chemistry T5を開発しました。

チャットボットと物質探索の融合

研究ではチャットボットを作成して、簡単な化学に関するタスクをAIに解かせる実験をしました。
実験ではアルカロイドの構造式をAIに見せ、簡単な推論のタスクを与えました。その結果AIは期待通りに返答することが確認され、特別なプログラミングスキルが無くとも、化学物質の探索において科学者とAIが自然言語を通じて協調できることが示されました。

上の例では、ユーザーが分子を提供(SMILES文字列または分子スケッチャーを使用)し、その分子を識別するように依頼します。チャットボットは、プロンプトエンジニアリングに依存してLLMに利用可能なすべてのツールについて伝達・通知します。

ユーザーの入力は最初にLLMに送信され、この場合はPubChemがその質問に答えることができるサポートされているツールの1つであると認識します。次に、チャットボットはPubChem APIにリクエストを送信し、分子に関する簡潔な説明を返します。その後、ユーザーはlogP分配係数と薬剤様性の定量的推定(QED)を計算するように依頼します。両方のプロパティの計算は、GT4SDツールを通じて可能にされ、チャットボットがリクエストに確実に応えられるようにします。これにより、GT4SD用のAPIリクエストを正確にフォーマットするプログラミングルーチンがトリガーされます。つまり、logPまたはQEDエンドポイントでSMILES文字列を構成するようになるのです。計算は非同期に行われ、別の呼び出しを後処理ルーチンに行い、LLM生成の文字列応答をフォーマットして、フロントエンドの応答オブジェクトを構成します。

LLMは、精度や信頼性の面で複雑な化学タスクを実行可能であるとは言えませんが、高い自然言語処理能力を活かして既存の化学ツールを扱わせるという方向において、物質探索を大きく変革し得ると結論づけられています。

Dynagon Tech Blog

Discussion