化学情報学(chemoinfomatics)や物理有機化学(physical organic chemistry)を学ぶためのロードマップ
ケモインフォマティクスは日本語では「化学情報学」と呼ばれる研究領域であり、より速くより良い判断をするためにデータを解析して体系化することを目指すものです。
ケモインフォマティクスを学ぶためのプログラミングのコードなどは、以下のページで入門を解説しています。
このページでは、理論的な事柄として、どのようなものを学ぶ必要があるのかについて概略を記載いたします。将来的には、概略だけでなく内容も記載した解説記事をzennの本でも公開したいと思っております。
0. はじめに
以下の2つの本を中心に化学情報学(chemoinfomatics)や物理有機化学(physical organic chemistry)などで学ぶ内容の概要紹介になります。
ここに書いてあるもの以外にも、以下の本では多くのことを学べます。
- Chemoinformatics: Basic Concepts and Methods
- Applied Chemoinformatics: Achievements and Future Opportunities
これら2つの本をもとにして学ぶことを書いておりますが、わかりやすさ向上のためにより基礎的な事柄も追加します。以下、内容です。
1. 全体概要
物理有機化学は、「有機化合物の反応や構造を詳しく調べ,有機化学を深く理解するための原理や法則を導くことを目的とする研究分野」であり、科学情報学とはデータを情報へ、情報を知識へと変換するため研究分野であり、多くの複雑なデータを扱えるようになっている。これらを通して、化学情報の①要約、②現象の説明、③未知データを予測といったことを行えることを本講義では説明していく。この章では、その概要について学ぶ。
- 名前と化合物の表現方法
- データの種類
- 予測する手法と注意点
- 予測できるデータの種類(物性の予測、スペクトルの予測、生物活性の予測、立体選択性の予測)
教科書の該当ページ
Chemoinfomatics: Chapter 1 Introduction
Applied Chemoinformatics: Chapter 1 Introduction
キーワード
物理有機化学(physical organic chemistry)、化学情報学(chemoinfomatics)、マテリアルズインフォマティクス(Materials informatics)
2. 有機分子の名前と2次元的、3次元的な表現
分子構造表現の基本的な概念をいくつか紹介する。化合物に関連する複雑なデータを持つ現実世界とは対照的に、我々は制限された分子データから始めて、より多くのデータを含むようになる。子の表現には、いわゆる0次元から化学構造の表面表現に至るまで、複雑さの階層が見られる。この章では、有機分子の0次元から3次元までの表現方法について学ぶ。
- 表現方法における3つの視点(一意性(再現性)、情報量、解釈性)について
- 化学構造の階層(名前、分子式、結合、3次元構造、電子状態)
- 行列表現や接続表
- 3次元の表し方(XYZフォーマット、Zマトリックス)
教科書の該当ページ
Chemoinfomatics: Chapter 2 Principles of Molecular Representations, Chapter 3 Computer Processing of Chemical Structure Information
キーワード
smiles, inchi, mol, sdf
3. 有機分子の3次元的な立体表現や異性体、キラリーティーと様々なモデルでの可視化
有機分子は3次元により表現する際に、気をつけることは不斉炭素の有無である。この章では不斉の立体表現方法や3次元的なモデルの可視化について学ぶ。
- 立体化学は、2次元構造でも(順列)記述子でもグラフィカルに表現することができる。
- 分子表面は、静電ポテンシャル、原子電荷、疎水性など、さまざまな化学的・物理的特性をカラーマッピングで表現することができる。
- 化学構造は、さまざまなモデルで可視化することができる。
教科書の該当ページ
Chemoinfomatics: Chapter 2 Principles of Molecular Representations, Chapter 3 Computer Processing of Chemical Structure Information
キーワード
CIP則、ファンデルワールス面、溶媒アクセス可能表面(SAS)、
4. 有機化学反応の情報は何が含まれているか
化学者は、化学反応に関する知識をどのように身につけてきたか?ケモインフォマティクスは、化学反応の経過や結果を予測するために、反応情報からどのように知識を抽出するのか、またその知識がどのように役立つのか?といった疑問に答えるための基礎を、この章で学ぶ。
- 試薬、溶媒、触媒、生成物の接続表と、反応条件(温度、濃度、時間など)およびその他の観察結果(収率)の情報を含める必要がある。
- 化学反応の種類には、Reaction SMILES、Reaction Molfile (RXN)などがある。
- 化学反応の表現には、参加するすべての化学種(出発物質、試薬、溶媒、触媒、生成物)の接続表と、反応条件(温度、濃度、時間など)およびその他の観察結果(収率)の情報を含める必要がある。
- 化学反応の種類は置換反応、付加反応、脱離反応、転移反応などがある。
- 化学反応を定量化する方法として色々なものが知られている(フロンティア分子軌道理論、線形自由エネルギー関係 (LFER))
教科書の該当ページ
Chemoinfomatics: Chapter 4 Representation of Chemical Reactions
Applied Chemoinformatics: Chapter 4 Chemical Reactions
キーワード
Reaction SMILES, Reaction Molfile (RXN), linear free-energy relationships(LFER)
5. 化学におけるデータの種類
化学は、おそらく最も多様な種類の情報を扱わなければならない科学である。化学の基本概念は分子と反応という2つのみであるが、これらには数多くの関連した性質や関係がある。この章では、化学におけるデータの種類と分類、データの検索や類似度などの解析方法について学ぶ。
- データには型 (名義尺度、順序尺度、間隔尺度、比例尺度)がある。
- データには種類(決定的な値、測定値、予測値)がある。
- 検索方法と類似性の尺度
教科書の該当ページ
Chemoinfomatics: Chapter 5 The Data, Chapter 6 Databases and Data Sources in Chemistry, Chapter 7 Searching Chemical Structures
キーワード
Structural Keys(構造キー)、Fingerprints(フィンガープリント)、Tanimoto coefficient(谷本係数), ChEMBL, PubChem
6. 計算化学
化学研究に不可欠なニーズは化学物質の物性に関するデータへのアクセスであるが、多くの化合物の物性は決定されておらず、公表もされていないため、データベースで検索することができない。このような場合、必要なデータを計算する方法として理論に基づいた演繹的手法で直接行う方法がある。本章では、計算化学の手法によって物性値などを算出する方法を学ぶ。
- 物性計算の経験的アプローチ
- 分子力学
- 量子力学
教科書の該当ページ
Chemoinfomatics: Chapter 8 Computational Chemistry
キーワード
PEOE, 半経験的分子軌道法, 密度汎関数理論(Density Functional Theory)
7. 構造記述子
この数十年、多くのグループが化合物の特性を予測するための分子記述子の設計に取り組んできた。そのため、多くの分子記述子が利用可能である。この章では、これら記述子の代表的な例について紹介する。
- 構造記述子とは
- 0次元の分子記述子とは
- 1次元の分子記述子とは
原子タイプの数
フラグメントの数 - 2次元の分子記述子とは
位相幾何学に基づく記述子 - 構造キーとフィンガーフラグメントとは
- 3次元の分子記述子とは
幾何学的な記述子(分子形状に基づく、さまざまな種類のコンフォメーション依存記述子。信頼性の高いコンフォメーションが事前に計算されていれば、信頼性の高い値を得ることができる。) - 4次元の分子記述子とは
コンフォメーションの3次元座標サンプリング(Hopfinger)
教科書の該当ページ
Chemoinfomatics: Chapter 10 Calculation of Structure Descriptors
キーワード
BCUT, Weighted holistic invariant molecular (WHIM), 比較分子場解析(CoMFA)
8. データ評価の基礎
多くのデータが集まったら、それらデータの関係性などの評価を行う。探索的分析はデータから何を読み取れるかを見出すのに用いられ、データ・セットの変数と変数間の関連をよりよく理解するのに有効で役立ちます。この章では、データをモデルで見て見る前に行う基礎的なことを学ぶ。
- 要約統計量 (平均値、中央値、最大値最小値、分散)
- 前処理(エラーやノイズ、欠損値の処理、データの統合、データの変換(正規化、基準化))
教科書の該当ページ
Chemoinfomatics: Chapter 11 Data Analysis and Data Handling (QSPR/QSAR)
キーワード
アンスコムの例, オッカムの剃刀, 多重共線性(マルチコリニアリティ:略してマルチコ)
9. 機械学習の方法
機械学習は「ML(Machine Learning)」とも呼ばれるデータからパターンやルールを機械(コンピュータ)自身に学習させる手法です。本章では、化学の分野における機械学習について学んでいく。
- 教師あり学習と教師なし学習 (定量的予測と類似性予測)
- 教師あり学習の回帰分析、分類分析
- 教師なし学習 (クラスタリングと次元削減)
- 学習の評価指標
- 線形モデルと非線形モデル
教科書の該当ページ
Chemoinfomatics: Chapter 12 QSAR/QSPR Revisited
10. 訓練データの分割、予測精度基準、モデルの適用範囲(AD)、仮想スクリーニング
データセットと計算された構造記述子があり、使用するデータ解析手法が決まれば、新しいデータを予測するためのモデルを構築するための準備は整ったことになる。しかし、利用可能なデータを最大限に活用し、予測能力の高いモデルを得るためには、様々な点を考慮しなければならない。この章では、利用可能なモデルを生成するデータサイクルを構築する方法を示す。
- 訓練データと予測データの分割
- 連続値の予測モデルにおける予測精度基準 (R2 はピアソンの相関係数(決定係数)の二乗、q2は予測対観察活性の原点を通る傾向線の決定係数、k と k′ は対応する傾きを利用する)
- 適用領域(Applicability Domain, AD)は,代表点が分布する記述子空間の超平行六面体として定義される.超平行六面体の次元は記述子の数に等しく,各次元の大きさは,対応する記述子の最小値と最大値によって定義されるか,あるいは,事前に定義された閾値まである程度,これらの限界を超えて伸びる.
教科書の該当ページ
Chemoinfomatics: Chapter 12 QSAR/QSPR Revisited
Applied Chemoinformatics: Chapter 2 QSAR/QSPR
11. QSAR
分子の基本的な物理化学的性質と構造的特徴は、物理、化学、生物、あるいは環境プロセスにおけるその挙動を決定するため、化合物の作用を理解しモデル化する上で興味深いものである。定量的構造活性相関(QSAR)の方法論は、化合物の分子構造とその生物活性との間に定量的な関連を確立しようとするものである。同様に、定量的構造物性相関(QSPR)は、化学構造と様々な物理的・化学的特性との関係をモデル化しようとするものである。本章では、これまで学んだことを振り返りつつQSAR および QSPR の方法論について概説する。
- 記述子作成、データ検索、探索的分析、モデル化、スクリーニングまでの作業を俯瞰しながら、課題を明らかにする。
- 計算化学、物理有機化学、ケモインフォマティクスの関係性や、どの情報を用いて予測できるのか(取得できる情報量、関係する記述子の把握(領域知識の利用)、記述子の削減)
- ケモインフォマティクスの課題(物性の予測、スペクトルの予測、生物活性の予測、立体選択性の予測)には、どのようなものがあるか。このあとの内容について簡単に触れる。
教科書の該当ページ
Chemoinfomatics: Chapter 12 QSAR/QSPR Revisited
Applied Chemoinformatics: Chapter 2 QSAR/QSPR
12. 化合物の物理化学的な基本性質の予測
化合物の溶解性、親油性、酸性度などの基本的な物理的・化学的特性は、化学、生化学、環境プロセスにおける化合物の挙動を決定します。そのため、創薬、環境化学、その他の化学産業において、化合物の作用を理解し、モデル化するために、これらの知識が必要とされている。ここでは、基本的な物理化学的特性を予測する手法について学ぶ。
- 生成熱の予測方法
- オクタノール/水分配係数(log P)の予測方法
- pkaの予測方法
教科書の該当ページ
Applied Chemoinformatics: Chapter 3 Prediction of Physicochemical Properties of Compounds, General Solvation Equation (GSE)
キーワード
Atom-Based Contribution Methods(原子ベース寄与法), Statistical Quantitative Structure–Property Relationships (QSPRs, 統計的定量的構造物性相関),
13. 構造-スペクトル相関とコンピュータ支援による構造解明
私たちが知っている分子構造の多くは、分光学的なデータの解釈から得られています。分子構造の解明とその物性の解明は、化学関連産業、環境科学、分析サービスなどに多大な影響を与える、化学の最も魅力的なテーマの一つである。本章では、分子構造からスペクトルのシミュレーションを行う方法と、分光データから構造を解明する方法の両方を解説する。
- IR
- NMR
- MS
- UV
教科書の該当ページ
Applied Chemoinformatics: Chapter 5 Structure–Spectrum Correlations and Computer-Assisted Structure Elucidation
キーワード
コンピュータ支援構造解明(CASE), 限定された環境に還元されたフラグメント」(FREL)
14. 食品科学におけるケモインフォマティクス
ケモインフォマティクスの分野は、創薬アプリケーションのために広範囲に開発されており、製薬業界では中心的な役割を担っている。しかし、本章で詳しく説明するように、医薬品開発プロジェクトで使用される原則の多くは、食品化学でも適用可能である。
- 複雑な情報、
- 化学空間を用いたバーチャルスクリーニング
- 活性の崖 (Activity clif)
教科書の該当ページ
Applied Chemoinformatics: Chapter 10 Chemoinformatics in Food Science
キーワード
GRAS(Generally Recognized As Safe:一般に安全と認められるもの), structure-property relationship(SPR, 構造物性相関), MACCSキー
15. 不斉触媒設計や予測方法
合成化学の中心は、予測可能な触媒設計という聖域である。特に、不斉触媒の反応開発に携わる研究者は
、この目標に向けて様々な戦略を追求してきました。その背景には、高選択性という現実的なニーズと、ある触
媒がある反応に有効である理由を容易に特定することができないことがあります。不斉触媒の分野では、その誕
生以来、経験主義や直感が支配的だったが、エナンチオ選択性は、特定の触媒や基質の性能を説明する触媒-構造
反応パターンを解明するための、メカニズム的に豊かなプラットフォームを提供するものである。この章は、論文の総説から紹介します。
- 3次元情報
- 反応情報
参考にした総説
キーワード
COMFA,
16. 今後の課題
ケモインフォマティクスの専門家は、今後も高い需要が見込まれます。現在、創薬は最も多くのケモインフォマティシャンを雇用している分野である。 今後、確実に変化していくでしょう。化学および関連分野の多くの分野が、"応用編 "に示すように、ケモインフォマティクスの手法をますます適用するようになるでしょう。これは、ケモインフォマティクスの専門家の雇用の可能性を開くものである。
- 化学物質情報へのアクセス
- 化合物の表現
- 化学反応の表現
- 化学情報からの学習
教科書の該当ページ
Chemoinfomatics: Chapter 14 Future Directions
Discussion