📖
【記録】効果検証入門
書籍Link:https://gihyo.jp/book/2020/978-4-297-11117-5
GitHub Link:https://github.com/ghmagazine/cibook
イントロ
- 因果推論には大別すると2つのアプローチがある
- Donald Rubinのアプローチ:因果の問題を欠損値として捉える
- Judea Pearlのアプローチ:因果の問題をベイジアンネットワークから考える
- 計量経済学は、大まかにはDonald Rubinのアプローチによって経済的な事象の効果を評価するための分野
- ランダム化比較試験(RCT)では実験が必要であり、企業によっては実験を行うことが難しい状況がある
⇒ RCT実施できない場合でも利用できる因果推論手法が以下- 回帰分析
- 傾向スコアを用いた分析
- 差分の差分法(DID)
- 回帰不連続デザイン(RDD)
1章:セレクションバイアスとRCT
- 介入の効果を測定する際、介入による真の効果とは別にセレクションバイアスが含まれてしまわないようにすることが重要
⇒ RCTが有効だが、現実問題として「RCT実施のコスト」と「平等性」の観点から、実際にRCTを実施することは難しい
2章:介入効果を測るための回帰分析
- OLSにより推定された回帰係数から介入効果の有意性を判断
- 脱落変数バイアス(OVB)が出来るだけ少なくなるように回帰式をモデリングする必要がある
- 回帰分析の結果から統計的に有意ではない共変量があったとしても、その共変量をモデルから削除しなければならないかどうかは問題の構造による
- OVBの値は「脱落変数と介入変数の関係」と「脱落変数と目的変数の関係」の積で表される
⇒ 介入変数の決定に関連があり、なおかつ目的変数との相関もある変数(交絡因子)を、回帰式に含めるとバイアスを低減できる - 回帰分析による介入効果の計測する際の課題
- 分析により得られた効果の推定値がどの程度バイアスを持っているかを評価できない
⇒ 複数の共変量の組み合わせを試すことでバイアスの変化量は確認できるが、モデル自体にどの程度バイアスが残っているかわからず、最終的にどの共変量の組み合わせが妥当かの判断が難しい - バイアスを減らす可能性が高い共変量がみつかったとしても、そもそも手持ちのデータにない、もしくはデータとして定義できない場合には、OVBの影響が残ったままの結果を受け入れるしかない
- 分析により得られた効果の推定値がどの程度バイアスを持っているかを評価できない
- 上記課題の対処法として、以下の手法が状況によっては有効
- 操作変数法
- 固定効果モデル
- 差分の差分法(DID)
- 介入により影響を受ける共変量は分析から除外する必要あり(Post Treatment Biasが生じるため)
- 回帰分析を利用した探索的な効果検証では、何でもかんでも分析にかけるのではなく、介入の事前知識をもとに分析すべき共変量であるか否かを判断する必要がある
- 効果検証のための回帰分析では、介入変数との多重共線性は問題となるが、それ以外の共変量間での多重共線性に関しては大きな問題にはならない
3章:傾向スコアを用いた分析
- CIA(Conditional Independence Assumption)は共変量で条件付けるのに対して、傾向スコアでは共変量から算出した介入の割り振り確立で条件付ける
- 傾向スコアマッチング:傾向スコアを利用してサンプル同士をマッチング
⇒ 少数グループのサンプル数を基準に、介入があったグループとなかったグループをマッチングすることで、介入数の不均衡を解消し、セレクションバイアスの影響をなくす - 逆確立重み付き推定(IPW):傾向スコアをサンプルの重みとして利用
⇒ サンプルの数量平均ではなく、数量と逆確立の積に対する平均を取ることで、セレクションバイアスの影響をなくす - 目的変数の値がどのような仕組みで決まるかに関して、情報量が多い(モデルを作成しやすい)場合には回帰分析を使うメリットが大きく、情報量が少ない(モデルを作成しにくい)場合には傾向スコアを用いる方が望ましい
- 傾向スコアを用いたマッチングは多くの計算時間を要するため、大規模分析では注意して使用する必要がある
- 傾向スコアマッチングでは、介入群の各サンプルに対してそれに似ている非介入群のサンプルが選択されるため、 分析結果として得られる効果の推定量は介入群となる可能性が高いサンプルにおける平均的な効果(ATT)となる
- IPWでは、得られた全データにおける介入群と非介入群の目的変数の期待値を傾向スコアの逆数で重み付けして求めるため、全データでRCTをした場合の結果(ATE)を推定していることになる
⇒ 介入群と非介入群の傾向の違いが大きい場合、IPWの分析結果は信頼性に乏しい。なぜなら傾向スコアの逆数をサンプルの重みに利用する性質上、傾向スコアが非常に小さい値であるサンプルの重みが非常に大きくなるため。
4章:差分の差分法(DID)とCausalImpact
- 回帰分析と傾向スコアは、介入群と非介入群の両方に同じような特徴(共変量もしくは傾向スコア)をもつサンプルが含まれている状況を利用して比較
⇒ 実際には、介入・非介入の各郡に同質なサンプルが存在しないことがよくある - 平行トレンド仮定:非介入群のデータの変化と、介入群が仮に介入を受けていなかった場合の変化が一致するという仮定
⇒ 実際には、この仮定が満たされているということを確認できない
以上4式より介入の効果τは以下のように求まる
式の意味として、それぞれの地域における時間差の比較を行い、次に各地域での時間差の比較結果を地域間で比較することを示している
また、式(1)-(4)は時間と地域それぞれについて、1854年の時に1となるダミー変数T54、 介入を行った地域の時に1となるダミー変数Atreatを定義することで、下式(5)のようにまとめることが可能
- CausalImpact(Bayesian Structural Time Series Model):目的変数を精度よく予測できるモデルを介入以前のデータのみを用いて作成し、学習済みモデルに対して介入後のデータをインプットし得られた予測結果と実測値の差から介入の効果を見積もる
- 予測モデルを作成する際には、介入の効果を受けない説明変数を使用することが重要
- DIDにおいては介入後の平均の効果しかわからないが、CausalImpactでは介入の効果を各観測時点で推定可能
⇒ CausalImpactであれば、段階的に強化される介入効果であっても、その効果を定量評価できる - DIDやCausalImpactは、効果を分析したい介入が他の介入や施策と同時に導入される場合、その効果を分析することはできない
- 効果を分析したい介入以外の介入や施策の重なりによるバイアスをアクティビティバイアスと呼ぶ
5章:回帰不連続デザイン(RDD)
- 介入の割り当てがルールベースの場合に有効な手法
- 介入の有無を定めている閾値(カットオフ)近辺のデータを使用することで、介入群と非介入群のバイアスを可能な限り小さくし、介入の効果を評価する
- カットオフの極近傍のデータのみを使用することでバイアスが小さくなり、介入の効果を精度良く推定することが出来るが、使用可能なデータ数が少ないため、標準誤差が大きくなり推定結果の値が変動しやすくなる
Discussion