🧑‍🎓

[解説] ニューラルネットワークで香りの混合を予測する研究

に公開

1. はじめに

この記事では、「Olfactory Label Prediction on Aroma-Chemical Pairs」という論文について解説します。この研究は、2つの香り分子を混ぜ合わせたときに生じる香りの特性を予測するための深層学習モデルに関するものとなっております。

2. 研究の背景と目的

香りや風味は私たちの日常生活で重要な役割を果たしています。食品、飲料、衛生用品など、多くの製品で慎重に設計された香りが使われています。しかし、新しい香り分子の設計には時間と労力がかかります。

そんな中近年、グラフニューラルネットワーク(GNN)を使った単一分子の香りの予測で高い予測結果が得られてます。GNNとは、分子などのグラフ構造(点と線で表される関係性)を処理できる特殊なニューラルネットワークで、化学構造のような複雑なデータを理解するのに適しています。

分子構造と香りの関係図

これまでの研究では主に単一分子の香り予測に限られていましたが、実際の産業では、複数の分子の混合物を使った香り予測に対するニーズが多いのが現状です。

この研究の目的は、分子の混合物から生じる香りの特性を正確に予測できるGNNモデルを開発することとなっております。

3. データセットの構築

本研究チームは「GoodScents」というオンラインの香料データベースを活用しました。このサイトには約3,500種類の香り分子が登録されており、各分子について詳細な情報が記載されています。
特に重要なのは、各分子ページには「この分子と混ぜるとよい香り」(ブレンダーと呼ばれている)の推奨リストが掲載されていることです。一つの分子に対して平均50以上もの組み合わせが推奨されており、これにより16万以上の分子ペアの情報を収集することが可能となっております。

収集したデータはネットワーク状の「メタグラフ」として考えることができ、各分子がノード(点)となり、混ぜ合わせる関係がエッジ(線)となります。
機械学習では、データを「訓練用」と「テスト用」に分ける必要がありますが、本研究ではこのメタグラフを利用し、以下2つ指針のもとデータセットを作成しました。

  1. 両方のグループに、すべての種類の香りラベルが含まれるようにする
  2. 分割によって捨てるデータが最小限になるようにする

こうして得られた最終的にデータセットには、104種類の標準化された香りノート(「花」「フルーティ」「スパイシー」など)が含まれています。また、単一分子の香り予測についても検証するため、別のデータソースから単一分子のデータも集めました。
このようにして作成した高品質なデータセットが、香り分子の混合物の予測モデル開発の基盤となりました。

4. モデルアーキテクチャ

本研究では、分子ペアの構造から混合された香りラベルを予測するために、2つのGNNアーキテクチャを開発しました。

1. GIN-GNN(Graph Isomorphism Network)

  • 各分子の埋め込みを独立して生成します

    • 埋め込みとは、複雑なデータ(ここでは分子構造)を数値のベクトルに変換することです。これにより、コンピュータが分子の特性を効率的に処理できるようになります。
  • これらの埋め込みは予測の最終段階で組み合わされます

  • このアーキテクチャでは分子ごとに独立した処理を行うことで特徴を捉えることができます

2. MPNN-GNN(Message Passing Neural Network)

  • 分子ペアの構造を単一のグラフとしてグループ化します

  • このグループ化したグラフをメッセージパッシングレイヤーに入力します

    • メッセージパッシングとは、グラフ内の各ノード(原子)が隣接ノードから情報を受け取り、自身の状態を更新するプロセスです。これにより、ネットワークは分子全体の構造と相互関係を理解できます。
  • 分子間の相互作用をより直接的にモデル化することが可能です

以下の図は、両方のモデルアーキテクチャの違いを示しています。

GIN-GNNとMPNN-GNNの違い

5. 実験結果

ブレンドペアの予測性能

各香りラベルに対するROC曲線下面積(AUROC)を用いて、モデルの予測性能を評価しました。

  • MPNN-GNNモデル:平均AUROC 0.77
  • GIN-GNNモデル:平均AUROC 0.76
  • ベースラインモデル(Morgan指紋):平均AUROC 0.67

※AUROC(Area Under the Receiver Operating Characteristic curve)は、モデルの性能を0から1の値で評価する指標です。1に近いほど予測精度が高いことを示します。

※Morgan指紋とは、分子構造を数値パターン(指紋)として表現する方法で、機械学習における比較対象として用いられます。

以下のグラフは、各モデルの香りラベルごとの予測性能を示しています:

香りラベル予測の可視化

予測結果からニンニクの香りは容易に予測することができました。これはこれまでの研究でもわかっていましたが、ニンニクの香りが分子中の硫黄の存在と直接関連しているためと考えられます。また、一般的に予測が難しいとされる「ムスク」の香りに関しても、今回のモデルでは正確に予測することができました。これは注目すべき結果となっております。
※ムスクは構造的に多くの異なる分子が持つ香りなので、一般的に予測が難しいとされています。
一方、「アイリス(香水に使われる菖蒲の根)の香り」や「土のような香り」などはどのモデルも正確に予測できませんでした。

単一分子の予測性能

両モデルを単一分子予測タスクにも適用した結果を以下に示します。

  • MPNN-GNN:平均AUROC 0.89
  • GIN-GNN:平均AUROC 0.85
  • Morgan指紋:平均AUROC 0.82

単一分子の予測タスクではすべてのモデルが高い性能を示しました。これは、ブレンドペアの予測の方がはるかに難易度が高いことを示しています。

6. 埋め込み空間の分析

MPNN-GNNを使って香りの分子を「埋め込み」という数値データで関係性を分析しました。例えば「バラの香り」や「レモンの香り」などの特徴を数字で表現するイメージです。

以下の3種類のデータを作成し、「分子1の特性 + 分子2の特性 = 混合時の特性」という単純な関係が成り立つかを調べるため、次の式で分析しました:

  1. ペアの最初の分子の特性データ(e1)
  2. ペアの2番目の分子の特性データ(e2)
  3. 2つの分子を混ぜたときの特性データ(ep)

式:α1・e1 + α2・e2 = ep

※上記式は、線形回帰の式になります。線形回帰とは、複数の変数間の関係を直線的な方程式で表現する統計手法です。ここでは、個々の分子の特性がどのように混合物の特性に影響するかを理解するために使われています。

分析の結果、決定係数(r²)の平均は0.47となりました。決定係数とは、データの説明力を0から1の値で示す指標です。

0.47という値は、分子の混合による香りの特性が、約半分は単純な足し算で説明できますが、残りの半分はより複雑な関係があることを示しています。

また、係数α1とα2には逆相関関係がありました。これは、混合において一方の分子の影響が強まると、もう一方の影響が弱まることを意味します。この現象は「加法的」または「減法的」ブレンディングと呼ばれます。つまり、混ぜると特定の香りが強調される組み合わせもあれば、互いの香りを打ち消す組み合わせもあるということです。​​​​​​​​​​​​​​​​

7. 結論と今後の展望

この研究では、深層学習技術を新しいデータセットに適用し、香り分子ブレンドの複雑な香り特性を高精度で予測するグラフニューラルネットワークモデルを開発し、単一分子の香り予測でも高い予測結果を得ることができました。

研究チームによると、この分野の最終目標は、様々な濃度の多成分香り分子ブレンドの香り特性を連続的に予測できるモデルの構築とのことです。これは食品科学者や調香師の実際の作業プロセスを反映しています。

しかし現状では、十分なラベル付けがされた公開嗅覚データセットは単一分子でさえ不足しています。香料企業は豊富なブレンドレシピのデータベースを保有していると考えられますが、これらは企業秘密として非公開のままです。本研究は、この分野における将来の研究発展のための重要な基盤となります。

8. この研究の意義

本研究は以下の点で重要な意義があります:

  1. 香り分子ペアの混合物の香りを予測する新しいモデルの提供
  2. 香り分子間の複雑な非線形関係の理解の進展
  3. 香水や食品業界での実用的応用の可能性の提示
  4. 将来的な多成分混合物の香り予測への基盤構築

香りの予測は非常に複雑な課題ですが、このような研究の進展により、将来の香水や食品の香り設計はより効率的かつ創造的になる可能性があります。香りの世界は主観的で多様性に富んでいますが、こうした客観的な深層学習アプローチにより、新しい香りと風味の創造プロセスが革新される可能性があります。

例えば、将来は調香師がAIツールを活用して「フローラルな要素を強めつつ、ムスクのニュアンスも維持したい」といった要望に対し、最適な分子の組み合わせや比率を迅速に提案できるようになるかもしれません。これにより、香水や食品開発の効率が大幅に向上する可能性があります。​​​​​​​​​​​​​​​​

Discussion