化学情報学(chemoinfomatics)や物理有機化学(physical organic chemistry)の理論を学ぶロードマップ
ケモインフォマティクスは日本語では「化学情報学」と呼ばれる研究領域であり、より速くより良い判断をするためにデータを解析して体系化することを目指すものです。
ケモインフォマティクスを学ぶためのプログラミングのコードなどは、以下のページで入門を解説しています。
このページでは、理論的な事柄として、どのようなものを学ぶ必要があるのかについて概略を記載いたします。
0. はじめに
以下の2つの本を中心に化学情報学(chemoinfomatics)や物理有機化学(physical organic chemistry)などで学ぶ内容の概要紹介になります。
ここに書いてあるもの以外にも、以下の本では多くのことを学べます。
- Chemoinformatics: Basic Concepts and Methods
- Applied Chemoinformatics: Achievements and Future Opportunities
これら2つの本をもとにして学ぶことを書いておりますが、わかりやすさ向上のためにより基礎的な事柄も追加します。以下、内容です。
ケモインフォマティクスで学ぶことは、主に化学構造を記述子に変換する部分と、変換した記述子を機械学習などで予測する応用の部分になります。
化学記述子編
1. 全体概要
物理有機化学は、「有機化合物の反応や構造を詳しく調べ,有機化学を深く理解するための原理や法則を導くことを目的とする研究分野」であり、科学情報学とはデータを情報へ、情報を知識へと変換するため研究分野であり、多くの複雑なデータを扱えるようになっている。これらを通して、化学情報の①要約、②現象の説明、③未知データを予測といったことを行えることを本講義では説明していく。この章では、その概要について学ぶ。
- 名前と化合物の表現方法
- データの種類
- 予測する手法と注意点
- 予測できるデータの種類(物性の予測、スペクトルの予測、生物活性の予測、立体選択性の予測)
教科書の該当ページ
Chemoinfomatics: Chapter 1 Introduction
Applied Chemoinformatics: Chapter 1 Introduction
キーワード
物理有機化学(physical organic chemistry)、化学情報学(chemoinfomatics)、マテリアルズインフォマティクス(Materials informatics)
2. 有機分子の名前と2次元的、3次元的な表現
ここでは分子構造表現の基本的な概念をいくつか紹介する。化合物に関連する複雑なデータを持つ現実世界とは対照的に我々は制限された分子データから始めて、より多くのデータを含む。この表現には、いわゆる0次元から化学構造の表面表現に至るまで、複雑さの階層が見られる。この章では、有機分子の0次元から3次元までの表現方法について学ぶ。
- 表現方法における3つの視点(一意性(再現性)、情報量、解釈性)について
- 化学構造の階層(名前、分子式、結合、3次元構造、電子状態)
- 行列表現や接続表
- 3次元の表し方(XYZフォーマット、Zマトリックス)
教科書の該当ページ
Chemoinfomatics: Chapter 2 Principles of Molecular Representations, Chapter 3 Computer Processing of Chemical Structure Information
キーワード
simplified molecular input line entry system(SMILES)
International Chemical Identifier(InChI)
Structure-Data File (sdf)
Bond Electron matrix (BE matrix; 結合電子行列)
Connection Table(CT; 接続表)
3. 有機分子の3次元的な立体表現や異性体、キラリーティーと様々なモデルでの可視化
有機分子は3次元により表現する際に、気をつけることは不斉炭素の有無である。この章では不斉の立体表現方法や3次元的なモデルの可視化について学ぶ。
- 立体化学は、2次元構造でも(順列)記述子でもグラフィカルに表現することができる。
- 分子表面は、静電ポテンシャル、原子電荷、疎水性など、さまざまな化学的・物理的特性をカラーマッピングで表現することができる。
- 化学構造は、さまざまなモデルで可視化することができる。
教科書の該当ページ
Chemoinfomatics: Chapter 2 Principles of Molecular Representations, Chapter 3 Computer Processing of Chemical Structure Information
キーワード
Cahn-Ingold-Prelog priority rule (CIP rule; CIP順位則)
Atom Mapping
Maximum Common Structure(MCS; 最大共通部分構造)
Reaction SMILES
Reaction Molfile (RXN),
4. 化学的なデータと型、種類、データベース
化学は、おそらく最も多様な種類の情報を扱わなければならない科学である。
化学の基本概念は分子と反応という2つのみであるが、これらには数多くの関連した性質や関係がある。
この章では、化学におけるデータの種類と分類、データベースについて学ぶ。
- 化学におけるデータの種類を区別すること。
- 数値データのさまざまな特性を比較すること。
- 反応データ表現における既存の制約を見直す。
- 一次文献、二次文献、三次文献の区別ができる。
- 書誌情報、物理化学的性質、分光学的・結晶学的・生物学的・構造的・反応的・特許的データを含む最も重要なデータベースを把握する
教科書の該当ページ
キーワード
質的データと量的データ(間隔尺度, 比例尺度)
連続値と離散値
スカラー、ベクトル、行列
決定論的な値 (Deterministic values)
測定値 (Measured values)
予測値 (Predicted values)
5. 構造記述子
この数十年、多くのグループが化合物の特性を予測するための分子記述子の設計に取り組んできた。そのため、多くの分子記述子が利用可能である。この章では、これら記述子の代表的な例について紹介する。
- 構造記述子とは
- 0次元の分子記述子とは
- 1次元の分子記述子とは
原子タイプの数
フラグメントの数 - 2次元の分子記述子とは
位相幾何学に基づく記述子 - 構造キーとフィンガーフラグメントとは
- 3次元の分子記述子とは
幾何学的な記述子(分子形状に基づく、さまざまな種類のコンフォメーション依存記述子。信頼性の高いコンフォメーションが事前に計算されていれば、信頼性の高い値を得ることができる。) - 4次元の分子記述子とは
コンフォメーションの3次元座標サンプリング(Hopfinger)
教科書の該当ページ
Chemoinfomatics: Chapter 10 Calculation of Structure Descriptors
キーワード
Wiener index
Burden CAS University of Texas(BCUT)
Weighted Holistic Invariant Molecular (WHIM)
Toplogical Polar Surface Area(TPSA: トポロジカル極性表面積)
Sterimol parameter
Comparative Molecular Field Analysis(CoMFA: 比較分子場解析)
quantitative estimate of drug-likeness (QED: 医薬品らしさ)
Synthetic Accessibility score (SA Score: 合成のしやすさ)
6. 化合物検索と完全、部分、類似一致
データの検索や類似度などの解析方法について学ぶ。
- 構造認識や構造データセット内の検索のための様々な方法とツールを適用する。
- 部分構造探索問題、最大公約数的な部分構造の概念、位相的に等価な原子の解法について、より徹底したアプローチを評価する。
- 化学構造の類似性の基本、類似性の尺度、類似性検索プロセスで利用されるさまざまなアプローチについて説明する。
教科書の該当ページ
Chemoinfomatics: Chapter 5 The Data, Chapter 6 Databases and Data Sources in Chemistry, Chapter 7 Searching Chemical Structures
キーワード
Structural Keys(構造キー)
Fingerprints(フィンガープリント)
Tanimoto coefficient(谷本係数)
7. 計算化学
化学研究に不可欠なニーズは化学物質の物性に関するデータへのアクセスであるが、多くの化合物の物性は決定されておらず、公表もされていないためデータベースで検索することができない。このような場合、必要なデータを計算する方法として理論に基づいた演繹的手法で直接行う方法がある。本章では、計算化学の手法によって物性値などを算出する方法を学ぶ。
- 物性計算の経験的アプローチ(PEOE)
- 分子力学
- 量子力学
教科書の該当ページ
Chemoinfomatics: Chapter 8 Computational Chemistry
キーワード
partial equalization of orbital electronegativity(PEOE)
semi-empirical molecular orbital method(半経験的分子軌道法)
molecular mechanics(MM: 分子力学法)
Density Functional Theory(密度汎関数理論)
8. 化学データの機械学習と概要、前処理、初期検討
多くのデータが集まったら、それらデータの関係性などの評価を行う。
探索的分析はデータから何を読み取れるかを見出すのに用いられ、データ・セットの変数と変数間の関連をよりよく理解するのに有効で役立ちます。
この章では、データをモデルで見て見る前に行う基礎的なことを学ぶ。
- 統計的データ評価の基礎(データ分布、相関、判別)を習得する。
- 多変量データ解析の基礎(データの種類、経験モデル、前処理、多変量距離と類似性、線形潜在変数)を習得する。
- 測定値および応答・結果の多変量空間の記述方法を理解する。
教科書の該当ページ
Chemoinfomatics: Chapter 11 Data Analysis and Data Handling (QSPR/QSAR)
キーワード
Normalization(正規化)
Standardization(標準化)
Anscombe's quartet(アンスコムの例)
Occam's razor(オッカムの剃刀)
Multicollinearity(多重共線性)
機械学習編
1. 化学データの機械学習とデータ分割、回帰と分類の評価指標
データセットと計算された構造記述子があり、使用するデータ解析手法が決まれば、新しいデータを予測するためのモデルを構築するための準備は整ったことになる。
しかし、利用可能なデータを最大限に活用し、予測能力の高いモデルを得るためには、様々な点を考慮しなければならない。
この章では、利用可能なモデルを生成するデータサイクルを構築する方法を示す。
- 教師あり学習と教師なし学習 (定量的予測と類似性予測)
- 教師あり学習の回帰分析、分類分析
- 教師なし学習 (クラスタリングと次元削減)
- 学習の評価指標
- 線形モデルと非線形モデル
教科書の該当ページ
Chemoinfomatics: Chapter 12 QSAR/QSPR Revisited
キーワード
▼訓練データとトレーニングデータについて
Train Test Split
training dataset, validation dataset, test dataset
Cross validation (CV)
Leave One Out Cross validation (LOOCV)
▼回帰の評価指標について
Observed-Predicted Plot (yyplot)
Mean Absolute Error (MAE)
Mean Squared Error (MSE)
Root Mean Squared Error (RMSE)
coefficient of determination (R2)
Golbraikh-Tropsha criteria (回帰モデルの評価基準として知られている)
▼分類の評価指標について
Confusion Matrix(混同行列)
正解率(Accuracy)
適合率(Precision)
再現率(Recall)
F 値 (F-measure, F-score, F1 Score とも呼ばれます)
MCC (Matthews Correlation Coefficient)
2. 化学データの機会学習とモデルの種類について
機械学習は「ML(Machine Learning)」とも呼ばれるデータからパターンやルールを機械(コンピュータ)自身に学習させる手法です。
本章では、化学の分野における機械学習について学んでいく。
- 機械学習方法の概要(線形回帰と非線形回帰)を知る
- 分類を行うための決定境界を定める機械学習の方法を把握する
- パラメーターとチューニングの概念を知る
- 内挿と外挿について説明でき、どのモデルが適しているかを選べるようになる
教科書の該当ページ
Chemoinfomatics: Chapter 12 QSAR/QSPR Revisited
Applied Chemoinformatics: Chapter 2 QSAR/QSPR
キーワード
Decision Boundary (DB: 決定境界)
parametric, non-parametric
Logistic Regression (LR: 線形回帰)
Multiple Linear Regression (MLR: 重回帰)
K-Nearest Neighbor (Knn: K近傍法)
Support Vector Machine (SVM: サポートベクターマシーン)
Decision Tree (DT: 決定木)
RandomForest
XGBoost
AdaBoost
3. モデルの解釈、データや記述子を解釈、モデルの適用範囲を推定
分子の基本的な物理化学的性質と構造的特徴は、物理、化学、生物、あるいは環境プロセスにおけるその挙動を決定するため、化合物の作用を理解しモデル化する上で興味深いものである。定量的構造活性相関(QSAR)の方法論は、化合物の分子構造とその生物活性との間に定量的な関連を確立しようとするものである。同様に、定量的構造物性相関(QSPR)は、化学構造と様々な物理的・化学的特性との関係をモデル化しようとするものである。本章では、これまで学んだことを振り返りつつQSAR および QSPR の方法論について概説する。
記述子作成、データ検索、探索的分析、モデル化、スクリーニングまでの作業を俯瞰しながら、課題を明らかにする。
計算化学、物理有機化学、ケモインフォマティクスの関係性や、どの情報を用いて予測できるのか(取得できる情報量、関係する記述子の把握(領域知識の利用)、記述子の削減)
- 記述子作成、データ検索、探索的分析、モデル化、スクリーニングまでの作業を俯瞰しながら、課題を明らかにする。
- 計算化学、物理有機化学、ケモインフォマティクスの関係性や、どの情報を用いて予測できるのか(取得できる情報量、関係する記述子の把握(領域知識の利用)、記述子の削減)
- モデルの解釈や得られたデータについての解釈、モデルの適用範囲の推定などについて学ぶ。
教科書の該当ページ
Chemoinfomatics: Chapter 12 QSAR/QSPR Revisited
Applied Chemoinformatics: Chapter 2 QSAR/QSPR
キーワード
▼解釈
Feature Importance
Gini impurity (ジニ不純度)
SHapley Additive exPlanations (SHAP)
▼次元削減
Principal Component Analysis (PCA)
▼適用範囲
Applicability Domain (AD: モデルの適用範囲)
leverage (レバレッジ)
Cook’s distance(クックの距離)
12. QSPRモデルと融点、溶解度、分配係数
物理化学的な指標として融点、溶解度(水に対して)、分配係数(水-オクタノール)の3つの予測精度を比べながら予測モデルが失敗する理由について考えていく。
- 特性と構造との定量的な関係を導き出すこと。
- 現場で利用できるさまざまな手法に関する知識を習得する。
- いくつかの重要な特性をモデル化するための手法の概要を習得する。
- さまざまなモデリング手法の限界を確認し、理解する。
教科書の該当ページ
Applied Chemoinformatics: Chapter 3 Prediction of Physicochemical Properties of Compounds, General Solvation Equation (GSE)
キーワード
Atom-Based Contribution Methods(原子ベース寄与法)
General Solubility Equation(GSE: 一般溶解度方程式)
Quantitative Structure–Property Relationships (QSPRs, 定量的構造物性相関)
13. 化学構造とスペクトルおよび逆解析
私たちが知っている分子構造の多くは、分光学的なデータの解釈から得られています。
分子構造の解明とその物性の解明は、化学関連産業、環境科学、分析サービスなどに多大な影響を与える、化学の最も魅力的なテーマの一つである。
本章では、分子構造からスペクトルのシミュレーションを行う方法と、分光データから構造を解明する方法の両方を解説する。
- 分子構造からスペクトルをコンピュータで予測するために利用できる主な方法とツールを特定する。
- スペクトルデータからのコンピュータ支援構造解明(CASE)について簡単に説明する。
- スペクトルの予測には分子構造を適切に表現することが重要であることを理解し、構造-スペクトル相関の文脈で構造表現の主なアプローチを知ること。
- 構造-スペクトル相関を自動的な構造検証やデリプレーション、すなわち複雑な混合物中の化合物の同定に応用すること。
教科書の該当ページ
Applied Chemoinformatics: Chapter 5 Structure–Spectrum Correlations and Computer-Assisted Structure Elucidation
キーワード
inverse problem (逆問題)
computer-aided structure elucidation(CASE: コンピューターによる構造解明)
限定された環境に還元されたフラグメント」(FREL)
Hierarchical ordered description of the substructure environment (HOSE)
Increment-Based Method
14. 食品科学におけるケモインフォマティクス
本章の目的は、食品科学分野におけるケモインフォマティクスの主要なトピックを議論することである。
また、今後の発展やまだ解決しなければならない問題点についても取り上げている。
食品科学におけるケモインフォマティクスの一般的な範囲についての簡単な議論を行う。
- 化学空間を用いたバーチャルスクリーニング
- 活性の崖 (Activity clif)
- 食品化学に適用される一般的なケモインフォマティクス手法を明らかにする。
- 新しい研究分野であるフードインフォマティクスの現状、成功したアプリケーション、限界について説明する。
- 食品化学の分子ライブラリーをレビューする。
- 食品化学の化学空間の解析と可視化アプリケーションを利用する。
- 食品化学で用いられる構造物性相関のアプローチについて議論。
- 所望の特性を持つ食品化学物質を特定するためのデータマイニングの事例を報告する。
教科書の該当ページ
Applied Chemoinformatics: Chapter 10 Chemoinformatics in Food Science
キーワード
▼化学空間
Chemical Space(化学空間)
Activity clif(活性の崖)
▼食品科学
GRAS(Generally Recognized As Safe:一般に安全と認められるもの)
GDB(Generated DataBase)
▼空間を表現する記述子
MACCS Key (Molecular ACCess System Key)
MQN(Molecular Quantum Numbers)
SMIfp(SMILES fingerprint)
15. 不斉触媒設計や予測方法
合成化学の中心は、予測可能な触媒設計という聖域である。特に、不斉触媒の反応開発に携わる研究者は
、この目標に向けて様々な戦略を追求してきました。その背景には、高選択性という現実的なニーズと、ある触
媒がある反応に有効である理由を容易に特定することができないことがあります。不斉触媒の分野では、その誕
生以来、経験主義や直感が支配的だったが、エナンチオ選択性は、特定の触媒や基質の性能を説明する触媒-構造
反応パターンを解明するための、メカニズム的に豊かなプラットフォームを提供するものである。この章は、論文の総説から紹介します。
- 3次元情報
- 反応情報
参考にした総説
キーワード
Quantitative Structure-Selectivity Relationship (QSSR: 定量的構造選択性相関)
asymmetric catalytic reaction (不斉触媒反応)
▼記述子
Charton value
Sterimol parameter
Continuous Chirality Measure(CCM)
Conformer Independent Chirality Codes (CICC)
Comparative Molecular Field Analysis(COMFA)
GRid-INdependent Descriptors (GRIND)
16. 今後の課題
ケモインフォマティクスの専門家は、今後も高い需要が見込まれます。現在、創薬は最も多くのケモインフォマティシャンを雇用している分野である。 今後、確実に変化していくでしょう。化学および関連分野の多くの分野が、"応用編 "に示すように、ケモインフォマティクスの手法をますます適用するようになるでしょう。これは、ケモインフォマティクスの専門家の雇用の可能性を開くものである。
- 化学物質情報へのアクセス
- 化合物の表現
- 化学反応の表現
- 化学情報からの学習
教科書の該当ページ
Chemoinfomatics: Chapter 14 Future Directions
ここに書いてある詳しい内容は本として公開予定
以下の二つについて執筆中で随時更新しています。
化学記述子編
機械学習編
Discussion