因果探索 ~ データから因果構造を特定できるメカニズム~
はじめに
「相関関係は因果関係ではない」という言葉はよく耳にします。しかし実際にデータ分析をしてみると相関と因果の判定は思ったよりも難しいものであると感じることがあります。データから因果構造を探索する因果探索について紹介します。
本記事では、因果探索手法の一つであるLiNGAMを例に、以下の2つの疑問について掘り下げます。
- Q1: 普通の相関分析や回帰分析と因果探索は数学的な操作として何が違うのか?
- Q2: その操作のもと、因果が探索できると考えるロジックは何か?
これらは意外と自明として片付けられていることが多い印象があります。本記事では一部個人的な解釈を基に説明しますので、もし誤りなどがあればご指摘いただけますと幸いです。
前提知識
本記事の前提知識として以下を理解していることを想定しています。
- 重回帰分析
- 残差
- 確率分布とは何か
- 正規分布とは何か
因果探索とは
まず基本的な用語を整理します。
- 因果: 原因と結果、またはその関係性自体
- 因果探索: データのみからありえる因果構造を推定する数理的手法
- 因果推定: ランダム化比較試験などにより数値的に因果効果を測定する手法
因果に関連した数学的手法として大きく因果推論と因果探索の2つがありますが、このうち本記事で焦点を当てるのは因果探索になります。
一般のビジネス的な場面では、データ分析結果を基にメカニズムを説明する論理展開が可能かで因果の判定を行うことが多い印象です。これが意外とドメイン知識が必要だったり、追加での検証が必要だったりと大変になりがちです。
因果探索では、観測データのみに基づいて、変数間の因果構造を特定しようとします。例えば、ある製品の売上に影響を与える要因が何かをデータから自動で特定したい場合などで利用できる手法です。
LiNGAMの基本
今回はLiNGAM(Linear, Non-Gaussian, Acyclic Model)という因果探索手法を軸に説明します[1]。
LiNGAMは以下の3つの仮定をデータに対しておきます。
1. 線形性
変数間の関係が線形であることを仮定します。
-
: 観測変数x_i -
: 観測変数b_{ji} からx_j への影響度x_i -
: 外部影響(観測されない変数)e_i -
: 定数項c_i
2. 非ガウス性
外部影響
3. 非巡回性
因果関係が循環しないことを仮定しています。例えば、変数Aが変数Bに影響を与え、変数Bが変数Cに影響を与え、変数Cが再び変数Aに影響を与えるような循環は想定していません。
これらの仮定の上で、LiNGAMでは
ですが、何故
因果探索のための前準備
無相関と独立の違い
因果探索を理解する上で重要な概念が「無相関」と「独立」の違いです。この点に非ガウス性の仮定が関わってきます。
- 無相関: 2つの変数の間に線形な関係がないこと
- 独立: 2つの変数が互いに影響を与えないこと
無相関は独立の必要条件ですが、十分条件ではありません。つまり、無相関であっても独立でない場合があるのです。
具体例
非ガウス分布が鍵となる理由
非ガウス分布の場合
ガウス分布でない場合は、ICA(独立成分分析)や相互情報量の計算により独立判定が可能となります。
ICA(独立成分分析)
ICAは中心極限定理の逆の考え方を利用すると解釈できます。
中心極限定理により、独立な非ガウス分布の重ね合わせは正規分布に近づきます。そのため、分解後の2つの独立な成分が異なる非ガウス分布に従うなら、それらを分離した後の分布は最もガウス分布から離れていると考えられます。
観測された
相互情報量
相互情報量は2つの確率分布
ガウス分布の場合の問題点
ガウス分布には再生性という性質があります。これは、ガウス分布の線形結合が再びガウス分布になる性質です。
この性質により以下の問題が生じます。
- ICAの場合: 外部変数がガウス分布だと、独立成分の分離が不可能
- 相互情報量の場合: 相互情報量を求めることは相関係数を求めることと同値となり[3]、独立の判定が適切に実施できない。
そのため、LiNGAMでは非ガウス性を仮定していると考えられます。
因果探索のロジック
ここでは簡単に2変数の場合で説明します。
因果の定義
改めてになりますが、因果の定義は特殊なものではなく、回帰モデルと独立判定の組み合わせで定義されています。
-
はX_2 に依存して決定されるX_1 -
はX_1 に依存せず、何らかの外部要因X_2 のみによって決定されるe_1
伝言ゲームの例で理解する
この定義で因果とその方向が判定できる理由を、伝言ゲームの例で考えるとわかりやすいと思います。因果探索では因果の両方を試した上で、より適切な因果方向を推定します。
まず伝言ゲームを定式化します。
お題 →
-
お題の決定: 何らかの方法で決定され、外部要因
となるe_1 -
の決定: 最初の人はお題を受け取り、それをそのまま伝える。つまりX_1 X_1 = e_1 -
の決定: 次の人はX_2 を受け取るが、伝達ミスや解釈ミスなどの影響(外部要因X_1 )も受けるe_2
ここで、
正しい因果方向を仮定した場合
数学的には以下のように表現できます。
回帰で定数aを求めた後に、残差
逆の因果方向を仮定した場合
ここで逆方向の因果、つまり
このケースは数学的には以下のように表現できます。
しかし、真の因果関係の式を利用して整理すると以下のようになります。
この場合、
逆の因果を想定した推定は伝言ゲームの例で言うと、2番目の人が得た情報を元にお題を推論・再構築しようとするイメージになります。しかし、2番目の人の情報
したがって、誤った因果の仮定では外部要因が独立でなくなるため、因果関係の方向を判定できると考えられます。
まとめ
本記事では因果探索についてLiNGAMを軸に解説しました。
Q1への回答: 相関分析と因果探索の違い
相関分析は変数間の線形関係を測定するのみですが、因果探索は変数間の因果関係を特定するために回帰モデルと独立判定を組み合わせて使用しています。
Q2への回答: 因果が探索できるロジック
伝言ゲーム(情報の流れ)を例にとると、以下のことが理解できると考えられます。
- 正しい因果関係の仮定: 外部要因が独立
- 誤った因果関係の仮定: 外部要因が独立でなくなる
この性質により、因果探索では外部要因が非ガウス分布にしたがうと仮定して独立性判定を実施することで因果関係の方向も含めて特定できると考えられます。
一方であくまで回帰分析と独立判定の組み合わせに基づく手法であるため、全てのケースで正確に因果関係を特定できるわけではないことに注意が必要です。(例えば「本当は擬似相関」でもデータ上独立の判定が通ってしまう場合などはあり得る)
最近ではLLMも組み込んで人間的な因果ロジックも考慮した因果探索を試みる研究[4]も出てきており、今後の発展が期待されます。
参考文献
-
Shimizu, S., Hoyer, P. O., Hyvärinen, A., & Kerminen, A. (2006). A linear non-gaussian acyclic model for causal discovery. Journal of Machine Learning Research, 7(72), 2003-2030. https://www.jmlr.org/papers/volume7/shimizu06a/shimizu06a.pdf ↩︎
-
Shimizu, S., Inazumi, T., Sogawa, Y., Hyvärinen, A., Kawahara, Y., Washio, T., ... & Bollen, K. (2011). DirectLiNGAM: A direct method for learning a linear non-Gaussian structural equation model. Journal of Machine Learning Research, 12(33), 1225-1248. https://www.jmlr.org/papers/volume12/shimizu11a/shimizu11a.pdf ↩︎
-
正規分布に従う連続確率変数の相互情報量の推定は相関係数の推定に帰着される, Qiita. https://qiita.com/ae14watanabe/items/90e4e7cac773c9eaebec ↩︎
-
Cai, R., Luo, H., Yang, Z., Wei, W., Guo, R., & Li, L. (2024). Integrating Large Language Models in Causal Discovery: A Statistical Causal Approach. arXiv preprint arXiv:2402.01454. https://arxiv.org/pdf/2402.01454 ↩︎
Discussion