📐

傾向スコアによる逆確率重み付け(IPW)で平均処置効果を推定できることを数式を用いて説明する

2023/03/13に公開

前提

記号

X ... 共変量
T ... 処置変数(0 or 1)
Y^{(0)}, Y^{(1)} ... 潜在結果変数(それぞれ処置0,1に対応)
Y = TY^{(1)} + (1-T)Y^{(0)} ... (観測される)結果変数

平均処置効果\tau_{\rm ATE}は以下のように定義する:

\tau_{\rm ATE} = E[Y^{(1)} - Y^{(0)}].

仮定

  • 条件付き正値性
\begin{aligned} 0<P(T\vert X)<1 \end{aligned}
  • 潜在結果変数と割り付けの条件付き独立性
\begin{aligned} \{Y^{(0)}, Y^{(1)}\}\perp T \vert X \end{aligned}

示すもの

データ\{(X_1, T_1, Y_1), (X_2, T_2, Y_2), ..., (X_N, T_N, Y_N)\}が得られたとする。

これらのデータ点は、確率密度分布P(Y^{(0)}, Y^{(1)}, X, T)と関係Y = TY^{(1)} + (1-T)Y^{(0)}に基づいて生成されたと考える。

このとき、平均処置効果\tau_{\rm ATE}を以下のように推定できることを示す:

\begin{aligned} \tau_{\rm ATE} &= E[Y^{(1)} - Y^{(0)}] \\ &\approx \left( \sum_{i=1}^N\frac{T_i}{e(X_i)}\right)^{-1} \sum_{i=1}^N\frac{T_i}{e(X_i)}Y_i\\ &\qquad- \left( \sum_{i=1}^N \frac{1-T_i}{1-e(X_i)} \right)^{-1} \sum_{i=1}^N \frac{1-T_i}{1-e(X_i)} Y_i. \tag{1} \end{aligned}

ただし、傾向スコアe(X)は、以下のように定義する:

\begin{aligned} e(X) = P(T=1\vert X). \end{aligned}

導出

まず、E[Y^{(1)}]を以下のように推定できることを示す:

\begin{aligned} E[Y^{(1)}]\approx\left( \sum_{i=1}^N\frac{T_i}{e(X_i)}\right)^{-1} \sum_{i=1}^N\frac{T_i}{e(X_i)}Y_i. \tag{2} \end{aligned}

そもそも、E[Y^{(1)}]は以下のように表される:

\begin{aligned} E[Y^{(1)}] &= \int Y^{(1)} P(Y^{(1)})dY^{(1)}\\ &= \int \int Y^{(1)} P(Y^{(1)}, X)dY^{(1)}dX\\ &= \int \int Y^{(1)} P(Y^{(1)}\vert X) P(X)dY^{(1)}dX.\\ \tag{3} \end{aligned}

ここで、以下の関係に着目する:

\begin{aligned} P(Y^{(1)}\vert X)P(X) = \frac{P(Y^{(1)}, X, T)}{P(T\vert X)}. \tag{4} \end{aligned}

式(3)は以下の関係から示される:

\begin{aligned} P(Y^{(1)}, X, T)&=P(Y^{(1)}, T\vert X) P(X)\\ &= P(Y^{(1)}\vert T, X)P(T\vert X)P(X)\\ &=P(Y^{(1)}\vert X)P(T\vert X)P(X) \quad (\because 仮定より Y^{(1)}\perp T \vert X). \end{aligned}

式(4)を式(3)に代入することで、

\begin{aligned} E[Y^{(1)}] &= \int \int Y^{(1)} \frac{P(Y^{(1)}, X, T)}{P(T\vert X)}dY^{(1)}dX\\ &= \int \int \frac{1}{P(T\vert X)}Y^{(1)} P(Y^{(1)}, X, T)dY^{(1)}dX. \end{aligned}

ここで、左辺はTに依存しないことから、T=1を代入すると、

\begin{aligned} E[Y^{(1)}] &= \int \int \frac{1}{P(T=1\vert X)}Y^{(1)} P(Y^{(1)}, X, T=1)dY^{(1)}dX\\ &= \int \int \frac{1}{P(T=1\vert X)}Y P(Y, X, T=1)dYdX\\ &= \int \int \frac{1}{e(X)}Y P(Y, X, T=1)dYdX\\ &= \sum_{T'=0}^1\int \int \frac{T'}{e(X)}Y P(Y, X, T')dYdX. \tag{5} \end{aligned}

1段目から2段目の式変形では、T=1のときY=Y^{(1)}であることを利用した。
また、傾向スコアの定義よりe(X)=P(T=1\vert X)を用いた。

ここで、任意の関数f(X)Xの確率密度分布P(X)が与えられた時、P(X)からサンプリングされた \{X_1, X_2, ..., X_N\}について以下の関係が成り立つことを思い出す:

\begin{aligned} \frac{1}{N}\sum_{i=1}^N f(X_i) \approx \begin{cases} \int f(X)P(X)dX & X {\rm が連続}\\ \sum_Xf(X)P(X) & X {\rm が離散}. \end{cases} \tag{6} \end{aligned}

この関係に着目すると、式(5)の右辺は、以下のように表すことができる:

\begin{aligned} E[Y^{(1)}]&= \sum_{T=0}^1\int \int \frac{T}{e(X)}Y P(Y, X, T)dYdX\\ &\approx\frac{1}{N}\sum_{i=1}^N\frac{T_i}{e(X_i)}Y_i. \tag{7} \end{aligned}

ここで、以下の関係が成り立つことを利用する:

\begin{aligned} \left( \sum_{i=1}^N\frac{T_i}{e(X_i)}\right)^{-1}\approx \frac{1}{N}. \tag{8} \end{aligned}

これを示すには、再度式(6)に着目し、以下のように考える:

\begin{aligned} \frac{1}{N} \sum_{i=1}^N\frac{T_i}{e(X_i)} &\approx \sum_{T'=0}^1\int \frac{T'}{P(T=1\vert X)}P(X, T')dX\\ &= \int \frac{P(X)}{P(T=1, X)} P(X, T=1)dX \\ &= \int P(X)dX\\ &= 1. \end{aligned}

式(8)を式(7)に代入することで、

\begin{aligned} E[Y^{(1)}]\approx\left( \sum_{i=1}^N\frac{T_i}{e(X_i)}\right)^{-1} \sum_{i=1}^N\frac{T_i}{e(X_i)}Y_i \end{aligned}

が成り立ち、式(2)が示された。

上記と同様にして、

\begin{aligned} E[Y^{(0)}]\approx \left( \sum_{i=1}^N \frac{1-T_i}{1-e(X_i)} \right)^{-1} \sum_{i=1}^N \frac{1-T_i}{1-e(X_i)} Y_i \end{aligned}

も示すことができる。

以上を合わせると、式(1)が示される。

Discussion