📄

【論文紹介】テキストデータを用いた因果推論の根本問題

2023/06/12に公開

本記事で紹介するのは下記の論文。

https://www.science.org/doi/10.1126/sciadv.abg2652

この論文では、テキストデータを用いて因果推論を行う場合、潜在変数の伴った因果推論の根本問題と過剰適合の問題、二つに直面することが指摘されている。

社会科学の研究者はテキストを低次元の表現に置き換えること、すなわちマッピング関数gの発見に関心がある。
例えば、テキストが保守的なものであるか民主的なものであるのか、テキストにいかなるトピックが含まれているのかである。

テキストの表現を探すうえで、様々な分析モデルを試してみることになる。しかし、このような継続的な発見のプロセスは因果推論を行う上で問題となる。

潜在的結果フレームワークでも、非巡回有向グラフフレームワークでも、処置と結果は既知であり、データに依存していてはいけないからである。
しかしながら、テキストベースの因果推論では、研究者は結果と処置はしばしばデータから発見された潜在変数である。

そのため、Egamiの論文ではテキストベースの因果推論におけるワークフローを提案している。

因果推論の根本問題(FPCI)

何らかの処置を行った場合の潜在的結果Yi(1)から、処置が行われなかった潜在的結果Yi(0)を引いた値が個体因果効果(ICE)である。

ICEi = Yi(1) − Yi(0)

Yi(1)とYi(0)の両方を観察することが不可能であるため、個体因果効果を求めることができないことが、因果推論の根本問題(FPCI)であった。

個体因果効果を求めることは困難であるが、平均因果効果は下記のように求めることができる。

ATE = E[Yi(1) − Yi(0)]

ランダム化比較実験によって平均因果効果を識別するうえで、3つの仮定がある。

  1. SUTVA: 各個体の反応は、割り当てられた処置にのみ依存する。
  2. 無視可能性(ignorability): 各個体の潜在的結果は処置割り当てから独立している。
  3. 正値性(positivity): いずれかの処置に割り当てられる可能性が0ではない。

テキストデータを用いた因果推論における平均因果効果は下記のようになる。

ATEk = E[g (Yi(1))k − g (Yi(0))k] \\ = E[ zi,k(1)− zi,k(0)]

識別と過剰適合の問題

テキストデータを用いた因果推論では、下記の二つの問題がある。

  1. 識別の問題(潜在変数を伴った因果推論の根本問題)
  2. 過剰適合の問題

これらの問題は、テキストデータを低次元化するためのマッピング関数gによって引き起こされる。

マッピング関数g

社会科学者の関心として、高次元のテキストを低次元の表現にマッピング関数gを用いて置き換えることがある。
マッピング関数gの例として、トピックモデルや教師あり学習によるポジネガ分類など。

潜在変数を伴った因果推論の根本問題

処置が(0, 1)、結果がテキストである場合、処置割り当てのランダム化が異なると、異なるマッピング関数gが推定されてしまう。

ここでは私が考えた例えとして、マーケティングの施策に関する状況を考えてみたい。

ケース1 CMを閲覧することが処置であるとして、AさんがCMを閲覧したので、商品の魅力、CMの内容についてのトピックを書き、BさんがCMを閲覧しなかったので、商品の不満について書いたとする。

ケース2 別の処置割当が行われた状況について考えてみたい、今度はAさんはCMを閲覧しなかったので商品の魅力について書き、BさんはCMを閲覧したので、商品の魅力、CMの内容についてのトピックを書いたとする。

ケース1では合計で商品の魅力、CMの内容、商品への不満という3つのトピックがあり、ケース2では商品の魅力とCMの内容という2つのトピックがある。これらのデータを用いてモデルを学習させた場合、ケース1とケース2では分類するトピックの数が異なるので異なるマッピング関数gが推定されていることになる。

過剰適合の問題

テキストを低次元に表現するマッピング関数gを色々発見しているうちに、そのテキストでしか言えないような関係を発見してしまう。

データ分割の手順

潜在変数を伴った因果推論の根本問題と過剰適合の問題を解決するために、データ分割のワークフローが提案されている。

手順1.データセットを分割する

基本的にはトレーニングセットを50%、テストセットを50%に分割すればいいが、分析者がマッピング関数gの発見か処置効果の推定のどちらを重視するかに依存している。
テストセットを見た後に、マッピング関数gを変更した場合、FPCILVと過剰適合の問題に直面する。

手順2.マッピング関数gの発見

text as data手法を用いて、マッピング関数gを発見する。

手順3.トレーニングセットを検証する

分析する上で役立つように、モデルを再学習する。

手順4.マッピング関数gを適用し、因果効果を推定する

マッピング関数gをテストセットに適用し、平均因果効果を推定する。

手順5.テストセットを検証する

トレーニングセットの検証とは異なり、テストセットでの検証では、モデルを変更することはできない。テストセットの検証では、マッピング関数gが文書に含まれる概念を表現できているのかを検証する。

テキストデータを用いた因果推論の例

データ分割のワークフローに従って、egamiらは下記のような分析を行っている。

テキストが結果変数: 移民の質問紙実験

Roberts et al(2014)の研究が再現されている。

https://onlinelibrary.wiley.com/doi/abs/10.1111/ajps.12103

処置変数: 不法入国した人物に犯罪歴があるかどうか
従属変数: 人物が勾留されるべきか?それはなぜか?のテキストデータ
マッピング関数g: 構造的トピックモデル(内容共変量でトピックの比較が可能)

結果として、処置群においては最大限の罰についての書き込み、強制送還、出身国に戻すことについての書き込みが増えたことが示唆された。

テキストが処置変数:消費者金融保護局のケース

Fong & Grimmer(2016)の手法を用いて、下記のような研究を行っている。

https://aclanthology.org/P16-1151.pdf

処置変数:消費者金融保護局苦情テキストデータ
結果変数:返信の速さ
マッピング関数g:教師ありインド料理過程(トピックモデルではトピックの確率を足した1になるが、これはバイナリベクトルの形式)

結果として、住宅ローン、信用スコア、個人的な銀行業務といった潜在的な処置においては、迅速な対応が取られる可能性が高く、事件の経緯や詳細な文書化においては迅速な対応が取られない傾向が見られた。

Discussion