化合物表現方法における3つの視点(一意性(再現性)、情報量、解釈性)について
化合物表現方法における3つの視点(一意性(再現性)、情報量、解釈性)について
有機化学者にはphenylalanineという化合物を例にするとphenylalanineという名前からどのような化合物かを想像できるとともに、下記のような構造式を示すことで化合物を表現させる。
また、IUPACの命名方法によってphenylalanineは
2-Amino-3-phenylpropanoic acid
などと表現することができる。ここまでは、有機化学の本などで学ぶことも多いだあろう。
また、有機化学の研究室に入って研究をしたりしていると、CAS登録番号というものが有機化合物には付けられていて、phenylalanineの場合だと
63-91-2
と表現される。
一方、Chemoinfomaticsの分野だと、コンピューターに化合物を認識させるにはSMILES、Inchi、InchiKeyなどがよく使われる。それぞれの表現方法でphenylalanineを表すと、
SMILES
phenylalanineのSMILES
C1=CC=C(C=C1)C[C@@H](C(=O)O)N
SMILESは、Simplified Molecular Input Line Entry Systemの略であり基本的なルールは、以下の通りとなっている。
- 原子は原子記号で表される。曖昧な2文字記号(例えば、NbはNBではない)は角括弧で書かなければならない。それ以外の場合は、それ以上の文字は使用しない。
- 水素原子は基本的に省略する。
- 隣り合う原子は、互いに隣り合うように書く。
- 単結合"-"および芳香族(または共役)結合": "は省略する。
- 二重結合と三重結合を記号 "=" と "#" で示す。
- 芳香族部分構造は,関係する原子をすべて小文字で表記する。
- 分岐は括弧で表し、入れ子にすることができる。
- リングは、関係する原子にクロージャラベル(数字)を付けて記述する。
SMILESはよく使われるが、いろんな書き方があるので取り扱いには注意が必要である。ルールに従って並び順を決め正規化した(canonical smiles)ものも知られているが、データベースごとに同じ表記にならないこともある。
Inchi
phenylalanineのInchi
InChI=1S/C9H11NO2/c10-8(9(11)12)6-7-4-2-1-3-5-7/h1-5,8H,6,10H2,(H,11,12)/t8-/m0/s1
Inchiの簡単な説明は以下の通りとなっている。
InChIは、6つの階層に分類されている。
- メイン層(化学式、接続副層/c、H原子副層/h)
- 電荷層(電荷/qとプロトン/pのサブレイヤー)
- 立体化学層(二重結合 /b と四面体立体化学 /t, /m, /s、サブレイヤー)
- 同位体層 (/i, /h, /b, /t, /m, /s, サブレイヤー)
- 固定H層(非標準InChI時のみ)
- 金属用再接続層(非標準InChI時のみ)
SMILESではあった一意性の問題などを解決するために2000年から開発されているオープンソースのInChIアルゴリズムは、現在多くの分子エディタに実装されており、化合物をユニークな英数字の文字列に変換することができる。
InchiKey
phenylalanineのInchiKey
COLNVLDHVKWLRT-QMMMGPOBSA-N
InChIKeyは、人間が理解できないKeyとして、ハッシュアルゴリズムを使用して標準InChIから計算される。 このInChIKeyも線形英数字列で、ハイフン2本を含む27文字で固定長で表される。
これらは、それぞれ特徴をもっており場合によって使い分ける必要がある。使い分けるときのキーワードとして一意性、情報量、解釈性などがある。
1. 一意性
化学的命名法や表記法は、ある特定の化学構造のみを指す場合、曖昧さがない、あるいは一意であると呼ばれる。また、「一意性」は変換の両方向で一意であること、つまり命名法用語または名称と特定の一意な化学構造との間に一対一の対応があることを要求している。
IUPAC名は、一意ではない。たとえば、
IUPAC name
Phenylalanine
とされているが、Systematic IUPAC nameとして
(S)-2-Amino-3-phenylpropanoic acid
などと記載することもでき、2つの書き方を認めている。
Smilesという表記方法では、データベースによって表現が異なることが多い。
Phenylalanineの例でいうと、以下の4つのWEBサービスで全て異なる表記になっている。SMILESが読めなくても以下の文字列が、それぞれ違うということはわかるだろう。
CASのsmiles
phenylalanine
C([C@@H](C(O)=O)N)C1=CC=CC=C1
pubchemのsmiles
phenylalanine
C1=CC=C(C=C1)C[C@@H](C(=O)O)N
ChEMBLのsmiles
phenylalanine
N[C@@H](Cc1ccccc1)C(=O)O
wikipediaのsmiles
phenylalanine
c1ccc(cc1)C[C@@H](C(=O)O)N
一方、inchiおよびinchiKeyでは、CAS, pubchem, ChEMBL, wikipediaのどれで調べても
Inchi
InChI=1S/C9H11NO2/c10-8(9(11)12)6-7-4-2-1-3-5-7/h1-5,8H,6,10H2,(H,11,12)/t8-/m0/s1
InchiKey
COLNVLDHVKWLRT-QMMMGPOBSA-N
となっている。
一意性が必要な理由
このように、名称と特定の一意な化学構造との間に一対一の対応があると以下のようなメリットがある。
- 検索が容易
一意性がない場合には、自分になじみ深い化合物の呼び名がデータベースに別の名前でしか登録されていない場合,検索できなくなる。
- 重複削除可能
一意性がない表現を用いてデータベースを作成していると、意図せず同じ化合物を2つ以上データが入ってしまう可能性がある。
2. 情報量
情報量としては、情報としてどこまで必要かという求める情報量という観点と必要なデータ量という視点がある。
求める情報量
以下のものがある
- 識別
- 構成原子
- 結合情報
- 不斉のあるなし
- 3次元座標
どこまでの情報が欲しいか、求められているかによって表現方法も異なってくる。
必要なデータ量
- WEBで通信
- パソコンで保存
- サーバーに保存
などの段階で、それぞれ使える量であったり、保存できる量が異なる。
多くの化合物の情報を送信したり、保存したりする場合には、その時々で適切なデータとする必要がある。
同じ情報量ならばデータ量は少ない方が良い
なるべく同じ情報ならば削除したり、重複がないようにデータを作る工夫がなされている。
3. 解釈性
人間がみて、解釈が容易に理解できるかという視点もある。
Inchi Key は、WEBで化合物を検索するときには有効だが解釈性は低い
一方、smilesなども、どのような原子が含まれているかの情報を解釈できる。
また、化学構造などは、それを見るだけで以下のことが解釈できる
- どのような原子が含まれているか
- どのように原子が結合しているか
- 分子の大きさ
また、熟練の化学者ならば
- どんな反応が進行するか
- 類似化合物として、どのようなものがあるか
など色々な情報を、化合物の構造から瞬時に判断できる。
解釈性が必要な理由
- 仮説検証
- 知識発見
- 原因究明
- 判断支援
- 計画策定
- 活動代替
参考資料の該当ページ
Chemoinfomatics: Chapter 2 Principles of Molecular Representations, Chapter 3 Computer Processing of Chemical Structure Information
Discussion