ケモインフォマティクスなpython環境の準備
はじめに
ケモインフォマティクスツールで代表的なものにRDKitやpymatgenがある。
これらのツールは基本的にpython (たまにR)で提供されている。
pythonの場合、RDKitなどのような外部ツールのことをライブラリやモジュールと呼ぶが、こういったライブラリは素のpythonはもちろん、
Anacondaのようなデータ解析向けのpythonディストリビューションにも最初は含まれていない。
そのため、実際にケモインフォマティクスで何かをしようとした場合、自身のpython環境にライブラリを追加していく必要があるが、
依存関係などのエラーにより初心者が挫折しやすい。
・・・ということで、ここにAnacondaディストリビューションで一通りの環境を構築する手順をまとめておく。
環境
macOS Catalina バージョン10.15.7。基本的にWindowsやLinuxも同じ手順でインストールできることを確認済み。
1. Anacondaのインストール
MacOS版Anacondaのインストールに従ってインストールすればOK。
今回はpython環境としてAnacondaを用いる。pythonのライブラリ配布はPyPi (pip)かcondaのどちらかを介して行われるが、
この記事を書いた時点では、RDKitはcondaリポジトリからしか基本配布されていない。
公式リファレンスによればpipでインストールする場合はソースコードからビルドすることになり非常に大変である(やったことないけど。)
2. RDKit仮想環境のインストール
ターミナル(Windowsの場合はAnaconda Prompt)から以下を実行する。
その後、Proceed ([y]/n)? が帰ってくるのでyを入力すると、インストールが始まる。
conda create -n cheminfo -c rdkit rdkit
コマンドの引数の-nは仮想環境の名前、-cはチャンネル名を表している。
チャンネルというのはざっくりいうとどのサーバからダウンロードするか、ということを表している。
RDKitはRDkitが構築されたpython環境がこのrdkitチャネルから配布されているので、上記のような手順で簡単に構築することができる。
3. その他必要ライブラリのインストール
2で作成した仮想環境にケモインフォマティクスに必要なライブラリをインストールする。
conda activate cheminfo
conda install -c rdkit -c mordred-descriptor mordred
conda install -c conda-forge py3dmol
conda install scikit-learn scipy matplotlib seaborn pandas
- mordredは分子系の記述子 (説明変数)を生成するのに有用なライブラリ。
- scikit-learnは機械学習の前処理や推論が一通り揃った機械学習では必須のライブラリ
- scipy、simpyは科学技術計算のライブラリ。分子の座標を操作する際に用いる。
- matplotlibは可視化のライブラリ。ケモインフォマティクスのみで必要というわけではないが、pythonでプロット等を作成する場合には必須。
- py3Dmolは分子の3次元構造を可視化するライブラリ。notebook上で分子を可視化し、インタラクティブに取り扱うのに便利。
Discussion