LiNGAMで因果探索する際の前処理の実践②:データの調整
はじめに
こんにちは、因果探索アプリケーション Causalas 開発の井手です。
前回の記事に引き続き今回も、因果探索アルゴリズムの一つであるLiNGAMを用いた因果探索における、前処理について調査しました。
LiNGAMに関連する論文を中心に調査を行い、因果探索する際に共通して実施される前処理として、データの性質を調整する手法に焦点を当て、まとめましたので紹介します。
LiNGAMの前処理におけるデータクレンジングの手法については、前回の記事を参照してください。
不均衡データへの対応
データの不均衡とは、特定のクラスのデータ数が他のクラスに比べて著しく少ない状態を指します。このような場合、モデルが多数派クラスに過度に適合し、少数派クラスの予測精度が低下するリスクがあります。
因果探索においては、例えば複数データセットの因果探索[1]で、使用する複数のデータセットのデータ数の偏りによって因果関係の推定に影響を与える可能性があります。
このような課題に対処するため、データの削除によって不均衡を調整する手法が用いられることがあります。
例えば以下の研究では、正例と負例のデータ数に大きな差があるため、アンダーサンプリングを実施しています。
Medical checkup data analysis method based on LiNGAM and its application to nonalcoholic fatty liver disease[2]
アンダーサンプリングとは、多数派クラスのデータをランダムに削除し、少数派クラスのデータとのバランスを取る手法です。
上記研究では、非アルコール性脂肪肝疾患(NAFLD)の進行要因を特定するため、因果探索を実施しています。その際、重度のNAFLD患者の数が非常に少ないため、アンダーサンプリングを実施しています。具体的には、クラス0(NAFLD非該当者)の割合が多いため、男性データではクラス0の人数を1269から651に、女性データでは1349から242にアンダーサンプリングしています。
アンダーサンプリングによって得られた分析結果は、元の母集団とは異なる因果効果を示す可能性があるため、結果の解釈には注意が必要です。また、データ量が少ない状態での分析は誤差が大きくなり、結果の安定性に影響を及ぼすことがあります。
特に医療分野では、症例数の少なさからデータの不均衡が顕著になる傾向があります。そのため、アンダーサンプリングなどの手法を用いる際には、対象疾患の重症度による因果構造の違いがないという仮定のもとで、慎重に前処理を行う必要があります。
データの分割
因果探索を行う際、異なる性質を持つデータが混在している場合には、データをクラスごとに分割し、それぞれの性質に応じた因果構造を個別に分析する手法が有効です。たとえば、性別や嗜好といったカテゴリ変数を基準にデータを分割し、各グループに対して因果グラフを構築・比較することで、より詳細な因果関係を確認することができます。
データの分割はデータの不均衡と同じく慎重な判断が求められますが、データ分割の基準となる変数が外生変数である場合や、分割方法がドメイン知識に基づいて明確である場合には、分割による分析は有効なアプローチと考えられます。
以下の研究では、クラスタリングを用いてデータを複数のグループに分割した後、それぞれのグループに対して因果グラフを推定しています。クラスタリングとは、類似性に基づいてデータをいくつかのクラスターに分類する手法です。
Active Causal Learning for Decoding Chemical Complexities with Targeted Interventions.[3]
この研究では、量子化学データセットを用いて、どの特徴量が双極子モーメントに影響を与えるのかを推定しています。具体的には、MolLogP(親油性)、TPSA(トポロジカル極性表面積)、MolMR(モル屈折率)の3つの化学的特性を基準にクラスタリングを実施することで、データセットを3つのクラスターに分割しています。その後、各クラスターに対して個別に因果グラフを構築することで、特性ごとの因果構造の違いを明らかにしています。
データの標準化
一部の研究では、LiNGAMアルゴリズムを適用する前に、データセットに対して標準化(Standardization) を実施しています。標準化とは、各変数の平均を0、分散を1に揃える処理であり、変数間のスケールの違いによる影響の偏りを防ぐ目的で用いられます。
例えば以下の研究では、スケールの大きい変数がモデルに過度な影響を与えないように標準化を行っています。
Tracking the green coke production when co-processing lipids at a commercial fluid catalytic cracker (FCC): combining isotope 14C and causal discovery analysis.[4]
この研究では、グリーンコーク(再生可能原料由来のコーク)の生成量を予測するモデルを構築するために、因果探索が使用されています。標準化によって因果探索後の予測モデル構築の精度が向上したとしています。
一方で、標準化には注意すべき点もあります。特に、因果効果や介入効果の解釈において、標準化されたデータは直感的な理解を難しくする可能性があります。
以下の研究では、因果探索の前処理として標準化を実施していますが、介入効果の推定時には標準化を行っていません。
Validation of causal inference data using DirectLiNGAM in an environmental small-scale model and calculation settings.[5]
この研究では、海洋環境データを用いて共生細菌群とアマモが発生する要因を分析しています。介入効果の推定において、標準化を行うとスケールが変化し実際の数値に基づいた解釈が困難になるため、標準化を避けています。
たとえば、流量がml単位の変数で因果効果が「10」である場合、標準化していない場合は「流量を1ml増加させると10の影響がある」と解釈できます。一方、標準化された場合は「流量を1標準偏差(σ)増加させると10の影響がある」となり、実用での解釈が複雑になります。
つまり、標準化を行わないことで、介入効果や因果効果の解釈が直感的で分かりやすくなります。
LiNGAMのPythonパッケージ(DirectLiNGAM)では、因果順序の探索時に標準化が内部的に実施されています。したがって、前処理として明示的に標準化を行う必要がない場合もあります。
一方、因果効果を計算する関数では標準化は自動的に行われません。複数の変数間で影響の大きさを比較する際には有効ですが、実際の単位での変化量に基づいて因果効果を解釈したい場合は不向きな場合もあるため、目的に応じて使い分けることが重要です。
なお、標準化の有無はLiNGAMアルゴリズムの種類によって異なるため、処理に迷う場合は、標準化を実施したうえで結果の解釈に注意を払うことが推奨されます。
その他の前処理
事前知識
因果探索において、既存のドメイン知識を事前知識としてモデルに組み込むことで、探索の精度と効率を向上させることが可能です。具体的には、因果関係の有無が既に明らかになっている変数間の関係性を事前に設定することで、探索空間を限定し、計算負荷を軽減する効果が期待できます。
また、LiNGAMによる因果探索の結果が、事前に把握しているドメイン知識と整合しているかを検証することで、モデルの妥当性を評価することも可能です。
例えば先ほどのグリーンコークの研究[4:1]では、既知の因果関係を事前知識としてモデルに導入し、探索の効率化を図っています。その際、プロセス知識を基にコーク生成に影響する主要な変数を選定し、化石原料流量やバイオマス原料流量を外生変数として設定しています。これにより、探索範囲を限定し、より効率的な因果構造の推定を実現しています。
おわりに
本記事では、LiNGAMを用いた因果探索におけるデータの性質を調整するための前処理について解説しました。データの不均衡性への対応やデータの分割、標準化、事前知識の導入といった前処理は、因果探索の精度や解釈の妥当性に大きく影響を与える要素であり、目的やデータの特性に応じて適切に選択することが求められます。これらの前処理が探索効率の向上に寄与する一方で、処理方法によっては結果の解釈に注意が必要です。
-
S. Shimizu. Joint estimation of linear non-Gaussian acyclic models. Neurocomputing, 81: 104-107, 2012. ↩︎
-
T. Uchida, K. Fujiwara, K. Nishioji, M. Kobayashi, M. Kano, Y. Seko, K. Yamaguchi, Y. Itoh, H. Kadotanie. Medical checkup data analysis method based on LiNGAM and its application to nonalcoholic fatty liver disease. Artificial Intelligence in Medicine, 128: 102310, 2022. ↩︎
-
Z. R. Fox, A. Ghosh. Active Causal Learning for Decoding Chemical Complexities with Targeted Interventions. arXiv preprint arXiv:2404.04224, 2024. ↩︎
-
J. Su, L. Cao, G. Lee, B. Gopaluni, L. C. Siang, Y. Cao, S. van Dyka, R. Pinchukc, J. Saddlera. Tracking the green coke production when co-processing lipids at a commercial fluid catalytic cracker (FCC): combining isotope 14C and causal discovery analysis. Sustainable Energy & Fuels, 2022. ↩︎ ↩︎
-
A. Kurotani, H. Miyamoto, J. Kikuchi. Validation of causal inference data using DirectLiNGAM in an environmental small-scale model and calculation settings. MethodsX, 102528, 2024. ↩︎
Discussion