ここまでは、ライブラリーなどを使用して、データを整理し化学情報に変換し計算して、ほしい物性情報に変換することを学んだ。
ここまでのことを学べれば、化合物名と欲しい物性値のリストを集めて整理しさえできれば、未知化合物の物性値をある程度は予測できるようになったり、何が重要化を示せるようになっているはずである。
機械学習などを行うためにはデータ数が必要であり、目的変数を説明するための情報が必要である。
さらに研究を進めていくには、他の人のライブラリーをより発展させて自分でコードを書くことの基本を学んで、色々なことを勉強していく必要がある。
例えば以下のような課題があると考えている。
-
データの管理や保存
多量のデータを扱うためにはデータベース関係の知識が必要になってくる。 -
少数データへの対応
転移学習やfine tuningなどがある。
他の多量のデータを学習した後、それを応用していくことによって少数データへ対応することができれば良いことになる。 -
データの収集方法を開拓
データベースが整理されてきているとはいえ、文字の情報が圧倒的に多い。これをどのように処理してデータにするのかには課題がある。 -
分子の設計
新しい化合物の設計や探索方法を学ぶ。 -
合成難易度の判定
新しい分子が設計できたとしても、それが合成できなければ仕方がない。また時間的な制約もあるので、簡単に合成できることが必要である。合成難易度などを学びます。 -
化学指標の作成
化学記述子を作成することを学んでいく。
これらのことを行うには、google colabolatoryでコードを書くだけでなく、エディターや統合開発環境の使い方を学んで行ったほうが効率よく学習できる。