ケモインフォマティクスは日本語では「情報化学」と呼ばれる研究領域であり、より速くより良い判断をするためにデータを解析して体系化することを目指すものです。

pythonなどを学び始めて、ケモインフォマティクスも1から学んで行きたいという人向けに書いております。 pythonが少しわかったほうが理解が速いと思いますが、コピーアンドペーストでもコード自体は動きます。

内容としては、ケモインフォマティクスでよく使われる以下の内容について記載しております。

1回目 google colabolatoryの使い方
2回目 pandas
3回目 pubchempy
4回目 rdkit
5回目 openbabelとMOPAC
6回目 scikit-learn
7回目 pycaret
8回目 まとめ

で体系的に学べるようにしております。

詳細を学ぶと言うよりも、より深く学ぶためのキッカケになればと思って薄く広く記載しています。各回の最後に自分でコードを動かして確認する演習問題をつけています。 ケモインフォマティクスが日本で少しでもより広がったり、興味をもつ人が増えてくれれば幸いです。

今後も随時更新予定です。


ケモインフォマティクス入門書

はじめに

【1回目】google colabolatoryでプログラムを実行する

実行と保存

プリントやコメントの書き方

インポートの使い方

シェルコマンドの実行

予測変換やヘルプ関数、ショートカット

プログラムの実行時間の計測、プログラムの書き方は色々ある

google colabolatoryの補足説明

【1回目】まとめと課題

【2回目】Pandasでできること

Pandasを学ぶ理由

Pandasでデータの読み込み

Pandasでデータの確認

Pandasでデータの状態確認

Pandasでデータの欠損状態の確認

Pandasでデータ（欠損）の置き換えや削除

Pandasで新しいdfの作成

Pandasでデータ処理

Pandasで変数の前処理

Pandasで集計

Pandasで可視化

Pandasでデータの出力

Pandasやgoogle colabolatoryの補足事項

【2回目】まとめと課題

【3回目】pubchempyでできること

pubchempyを学ぶ理由と簡単な化合物の表記方法など

pubchempyのインストールと確認

pubchempyで化合物データの確認

pubchempyで名前以外からの検索方法（smiles、分子式、CIDなどからの検索）

pubchempyでSDFの取得

get_propertiesの使い方とpubchemとpandasの連携

pubchempyでデータのダウンロード

pubchempyの補足説明

【3回目】まとめと課題

【4回目】RDKitでできること

4.0 RDKitを学ぶ理由

RDKitのインストール方法(呼び出し方法とバージョンの確認)

4.1 RDKitで分子の読み込みと表示

RDKitで分子の書き込み

4.2 RDKitで分子のDescriptorを計算

RDKitでフィンガープリントを表示

4.3 RDKitで分子の情報の取得

4.4 RDKitで分子の構造変換

RDKitで3D描画

4.5 RDKitで部分構造検索

RDKitの補足事項や参考リンク

【4回目】まとめと課題

【5回目】MOPACとopenbabelの練習とファイルの読み取り

MOPACを学ぶ理由

openbabelによるMOPACのインプットファイルの作成_その１_単一分子

openbabelによるMOPACのインプットファイルの作成_その２_複数分子

MOPACの実行

MOPACの計算ファイルの読み取り

MOPACの補足説明

【5回目】まとめと課題

【6回目】Scikit-learnの練習

Scikit-learnを学ぶ理由

データの準備

トレーニングデータとテストデータの分割

モデルの学習

重要度解析

その他の説明

補足説明

【6回目】まとめと課題

【7回目】Automlの練習

Automlを学ぶ理由

ライブラリーのインストールと呼び出し

データの前処理

モデルの比較

分析モデルの生成

チューニング

可視化

モデルの評価

予測とモデルの保存

補足事項色々

【７回目】まとめと課題

【8回目】これまでの復習

【8回目】まとめと課題

まとめと展望

読者コミュニティ｜ケモインフォマティクス入門書

rdkit

mopac

pubchempy

chemoinformatics

poclabweb-gotoh