📝

【論文解説】LLMは因果関係を発見できず、因果探索では"非決定的な補助役"に限定されるべきである

に公開

論文タイトル:LLM Cannot Discover Causality, and Should Be Restricted to Non-Decisional Support in Causal Discovery

著者:Xingyu Wu, Kui Yu, Jibin Wu, Kay Chen Tan(香港理工大学)

リンク:https://arxiv.org/abs/2506.00844

執筆者:EQUES エンジニア 中山敦雅

※ 本ページの図は特筆がない限り全て本論文から引用しています。


今回ご紹介する論文は、
LLM Cannot Discover Causality, and Should Be Restricted to Non-Decisional Support in Causal Discovery
(Wu et al., arxiv preprint, 2025) です。

本研究で提案された枠組みは 「LLMガイド付きヒューリスティック探索」 です。
LLM が有する世界知識を探索ガイドとして利用するもので、
因果探索アルゴリズム(CDA)の探索効率を向上させる ことを目的としています。

すなわち:

LLM の知識を因果グラフ探索に使ったとき、収束効率や精度はどう変化するのか?
そして LLM は本当に「因果」を理解しているのか?

という問いに、実験的に答えた研究です。

前提知識

因果探索アルゴリズム (CDA)

観測データから因果構造(DAG)を推定する伝統的手法。

  • スコアベース手法(BIC, BDeu など)
  • 制約ベース手法(条件付き独立性テスト)
    など、厳密な統計・数理的根拠を持つ。

構造的因果モデル (SCM)

有向非巡回グラフ(DAG)に基づく因果モデル。
確率分布を「親ノードの条件付き確率の積」で表す。
LLM の自己回帰モデルが持つ「単語列の確率分解」とは根本的に異なる。

手法の全体像 (Overview)

論文で提案される LLMガイド付きヒューリスティック探索は、以下の 4 つのステップから成ります。

  1. 探索空間の初期化と剪定(Pruning)
  2. 進化演算子の最適化ガイド(LLM提案変異)
  3. 探索中に生じるサイクル検出と解消
  4. CDAによる統計的評価に基づく最終決定

各ステップの説明

STEP1:探索空間の初期化と剪定

  • 入力:データセット、変数情報、背景知識(LLMへのプロンプト)
  • 役割
    LLM が変数間の潜在的関連性を分析し、
    「因果関係が成立しにくい」エッジ候補を 探索空間から削除(剪定)
  • 効果
    初期探索がスパースな DAG から開始され、全体の探索効率が向上。

STEP2:進化演算子による探索ガイド

  • 従来の「ランダム変異・交叉」を LLM による提案へ置き換える。
  • LLM は現在の DAG と関連知識を入力に、
    もっともらしいエッジ追加/削除 を生成。
  • 局所最適解からの脱出をサポート。

STEP3:サイクル検出と解消

  • 探索中に生成される「サイクルを含む DAG」を検出。
  • LLM にサイクル情報を渡し、
    依存関係を踏まえた“削除すべきエッジ” を提案させる。

STEP4:CDAの統計的分析による最終決定

  • LLM は 決定権限を持たない
  • 最終的な因果構造は、
    • BIC
    • BDeu
    • 条件付き独立性テスト
      などの 理論的に保証された CDA のみに基づき決定される。

ここが本論文の主張の肝:
LLM は“決定”に関わってはいけない。必ず統計的因果探索が判断するべき。

実データでの結果

■ 主な実験結果(図7, 8)

  • LLMガイド付き初期化/変異操作により、
    Insurance, Water, Alarm などの中〜大規模データで F1スコアが向上
  • 探索の収束速度も向上。

■ LLM の限界(図3, 4, 6)

  • 数値精度を上げるほど F1 が劣化(1桁 → 8桁で急落)
    → LLM は高精度数値データに弱い
  • テキスト要因に強く依存
    • 原因と結果の単語順序
    • エンティティ間のテキスト距離
    • 冗長な単語の挿入
      → 因果と無関係な言語的“形”で結果が変わる
  • プロンプト操作で性能を水増し可能
    → 「知識の注入」によるインチキ強化のリスク

まとめ

項目 内容
本研究の貢献 LLM が因果推論の理論的基盤を欠くことを体系的に示し、CDAと混在させるリスクを明確化。
ユニークな点 LLM を“非決定的な補助エージェント”に限定するという境界線を提案し、実験でも補助的有効性を証明。
限界 LLM は相関構造を捉える傾向が強く、高精度数値やSCM特性を扱えない。テキスト要因にも脆弱。
今後の展開 LLM のアーキテクチャを因果構造に適合させる研究方向性を提案。一般LLMの“因果タスク直使用”を戒める。

参考情報

  • 論文:Preprint (arXiv:2506.00844)
  • GitHub:情報未掲載
  • 関連手法
    • スコアベース因果探索(BIC, BDeu)
    • 制約ベース探索(G^2 統計量)
    • ヒューリスティック探索(Hill Climbing, 進化アルゴリズム)

おわりに

EQUESでは引き続き、「最先端の機械学習技術をあやつり社会の発展を加速する」をミッションに研究開発と社会実装に取り組んでいきます。一緒に事業を創出する仲間を募集しています。詳しくは以下をご覧ください。

https://www.wantedly.com/companies/company_6691299

Discussion