前提
記号
X ... 共変量
T ... 処置変数(0 or 1)
Y^{(0)}, Y^{(1)} ... 潜在結果変数(それぞれ処置0,1に対応)
Y = TY^{(1)} + (1-T)Y^{(0)} ... (観測される)結果変数
平均処置効果\tau_{\rm ATE}は以下のように定義する:
\tau_{\rm ATE} = E[Y^{(1)} - Y^{(0)}].
仮定
\begin{aligned}
0<P(T\vert X)<1
\end{aligned}
\begin{aligned}
\{Y^{(0)}, Y^{(1)}\}\perp T \vert X
\end{aligned}
示すもの
データ\{(X_1, T_1, Y_1), (X_2, T_2, Y_2), ..., (X_N, T_N, Y_N)\}が得られたとする。
これらのデータ点は、確率密度分布P(Y^{(0)}, Y^{(1)}, X, T)と関係Y = TY^{(1)} + (1-T)Y^{(0)}に基づいて生成されたと考える。
このとき、平均処置効果\tau_{\rm ATE}を以下のように推定できることを示す:
\begin{aligned}
\tau_{\rm ATE} &= E[Y^{(1)} - Y^{(0)}] \\
&\approx \left( \sum_{i=1}^N\frac{T_i}{e(X_i)}\right)^{-1}
\sum_{i=1}^N\frac{T_i}{e(X_i)}Y_i\\
&\qquad- \left( \sum_{i=1}^N \frac{1-T_i}{1-e(X_i)} \right)^{-1} \sum_{i=1}^N \frac{1-T_i}{1-e(X_i)} Y_i. \tag{1}
\end{aligned}
ただし、傾向スコアe(X)は、以下のように定義する:
\begin{aligned}
e(X) = P(T=1\vert X).
\end{aligned}
導出
まず、E[Y^{(1)}]を以下のように推定できることを示す:
\begin{aligned}
E[Y^{(1)}]\approx\left( \sum_{i=1}^N\frac{T_i}{e(X_i)}\right)^{-1}
\sum_{i=1}^N\frac{T_i}{e(X_i)}Y_i. \tag{2}
\end{aligned}
そもそも、E[Y^{(1)}]は以下のように表される:
\begin{aligned}
E[Y^{(1)}] &= \int Y^{(1)} P(Y^{(1)})dY^{(1)}\\
&= \int \int Y^{(1)} P(Y^{(1)}, X)dY^{(1)}dX\\
&= \int \int Y^{(1)} P(Y^{(1)}\vert X) P(X)dY^{(1)}dX.\\ \tag{3}
\end{aligned}
ここで、以下の関係に着目する:
\begin{aligned}
P(Y^{(1)}\vert X)P(X) = \frac{P(Y^{(1)}, X, T)}{P(T\vert X)}. \tag{4}
\end{aligned}
式(3)は以下の関係から示される:
\begin{aligned}
P(Y^{(1)}, X, T)&=P(Y^{(1)}, T\vert X) P(X)\\
&= P(Y^{(1)}\vert T, X)P(T\vert X)P(X)\\
&=P(Y^{(1)}\vert X)P(T\vert X)P(X) \quad (\because 仮定より Y^{(1)}\perp T \vert X).
\end{aligned}
式(4)を式(3)に代入することで、
\begin{aligned}
E[Y^{(1)}] &= \int \int Y^{(1)} \frac{P(Y^{(1)}, X, T)}{P(T\vert X)}dY^{(1)}dX\\
&= \int \int \frac{1}{P(T\vert X)}Y^{(1)} P(Y^{(1)}, X, T)dY^{(1)}dX.
\end{aligned}
ここで、左辺はTに依存しないことから、T=1を代入すると、
\begin{aligned}
E[Y^{(1)}]
&= \int \int \frac{1}{P(T=1\vert X)}Y^{(1)} P(Y^{(1)}, X, T=1)dY^{(1)}dX\\
&= \int \int \frac{1}{P(T=1\vert X)}Y P(Y, X, T=1)dYdX\\
&= \int \int \frac{1}{e(X)}Y P(Y, X, T=1)dYdX\\
&= \sum_{T'=0}^1\int \int \frac{T'}{e(X)}Y P(Y, X, T')dYdX.
\tag{5}
\end{aligned}
1段目から2段目の式変形では、T=1のときY=Y^{(1)}であることを利用した。
また、傾向スコアの定義よりe(X)=P(T=1\vert X)を用いた。
ここで、任意の関数f(X)とXの確率密度分布P(X)が与えられた時、P(X)からサンプリングされた \{X_1, X_2, ..., X_N\}について以下の関係が成り立つことを思い出す:
\begin{aligned}
\frac{1}{N}\sum_{i=1}^N f(X_i) \approx
\begin{cases}
\int f(X)P(X)dX & X {\rm が連続}\\
\sum_Xf(X)P(X) & X {\rm が離散}.
\end{cases}
\tag{6}
\end{aligned}
この関係に着目すると、式(5)の右辺は、以下のように表すことができる:
\begin{aligned}
E[Y^{(1)}]&=
\sum_{T=0}^1\int \int \frac{T}{e(X)}Y P(Y, X, T)dYdX\\
&\approx\frac{1}{N}\sum_{i=1}^N\frac{T_i}{e(X_i)}Y_i.
\tag{7}
\end{aligned}
ここで、以下の関係が成り立つことを利用する:
\begin{aligned}
\left( \sum_{i=1}^N\frac{T_i}{e(X_i)}\right)^{-1}\approx \frac{1}{N}.
\tag{8}
\end{aligned}
これを示すには、再度式(6)に着目し、以下のように考える:
\begin{aligned}
\frac{1}{N} \sum_{i=1}^N\frac{T_i}{e(X_i)} &\approx \sum_{T'=0}^1\int \frac{T'}{P(T=1\vert X)}P(X, T')dX\\
&= \int \frac{P(X)}{P(T=1, X)} P(X, T=1)dX \\
&= \int P(X)dX\\
&= 1.
\end{aligned}
式(8)を式(7)に代入することで、
\begin{aligned}
E[Y^{(1)}]\approx\left( \sum_{i=1}^N\frac{T_i}{e(X_i)}\right)^{-1}
\sum_{i=1}^N\frac{T_i}{e(X_i)}Y_i
\end{aligned}
が成り立ち、式(2)が示された。
上記と同様にして、
\begin{aligned}
E[Y^{(0)}]\approx \left( \sum_{i=1}^N \frac{1-T_i}{1-e(X_i)} \right)^{-1} \sum_{i=1}^N \frac{1-T_i}{1-e(X_i)} Y_i
\end{aligned}
も示すことができる。
以上を合わせると、式(1)が示される。
Discussion