🎡

A/Bテスト(RCT)において回帰分析する際、共変量はどのようにコントロールすべきか ~Regression Adjustment~ 理論編

に公開

無作為実験を行った際に、処置変数と結果変数以外の情報(共変量;特徴量)を回帰分析においてどのように利用すべきかという記事です。

扱う論文は以下です。
Negi, A., & Wooldridge, J. M. (2020). Revisiting regression adjustment in experiments with heterogeneous treatment effects. Econometric Reviews, 40(5), 504–534. https://doi.org/10.1080/07474938.2020.1824732
https://www.tandfonline.com/doi/abs/10.1080/07474938.2020.1824732

用語整理

本記事では、以下を同義で扱う。
無作為実験=A/Bテスト=Randomized Controlled Trial:RCT
共変量 = 特徴量 = 交絡要因

前提

無作為実験なので、両群のランダム化は済んでおり、回帰分析を行った場合、推定量は不偏性および一致性を持つことは担保されています。

つまり、
潜在結果変数Y(0), Y(1)および、Xは、処置変数Wと独立です。

無作為実験でない場合は、共変量を用いた条件付き期待値を考える際にRegression Adjustmentがしばしば行われますが、今回の場合はその用途では使用されないです。
例:学歴が生涯年収に与える因果効果を推定したい場合は、両方の値に影響を与えうる親の年収をコントロールする必要があるが、無作為実験で処置がランダムに割り当てられている場合は、親の年収を考える必要はなくなる。

無作為実験において、Regression Adjustment(回帰調整、以後RA)を行う目的は、推定されるATE(平均処置効果)のefficiency(効率性)を改善する、つまり分散を減少させることであるとされています。

では回帰ベースで無作為実験のATEを推定する場合、共変量は回帰式においてどのように扱うべきでしょうか。実はこれ十数年前まで判明していませんでした。

今回はNegi&Wooldridge(2021)(以後、N&W)の主張の確認と、RAを実行するR(時間あればpythonも)での実装を記載します。と思いましたが、実装まで書くと長くなりそうなので、実装は別の記事で書こうと思います。

お時間ない人は、「**結局共変量どう使えばいいの?(SDM, PRA, FRA)
**」の章から読んでくれれば良いです。

Regression Adjustmentに関する先行研究

RAに関する研究でN&Wと関係の深いものが2つあります。

  • Freedman(2008a,2008b)
    • 有限母集団(finite population)において、共変量無しによる推定の場合と比較して、RAによる効率性の改善(efficiency gain)が薄いと主張。
    • さらに、モデルが誤設計(misspesified)されている場合、RAはむしろ効率性を損ねる可能性があると主張 (例えば本来は非線形なデータであるのに線形モデルで推定している場合など)
  • Lin(2013)
    • Freedman(2008a,2008b)を踏まえつつ、有限母集団において、RAは効率性の改善をもたらすと主張。その方法を提案。
    • この結果・手法は有限母集団において、N&W(2020)と同様の結果を示している。
    • 有限母集団においては、潜在結果変数が固定されており、処置の無作為割り当ては処置変数のみから発生している。

N&WのRegression Adjustmentに関する主張

N&Wは、以下を示しました。

  • Lin(2013)のRAのアプローチが、無限母集団からの無作為抽出を行ったサンプルに対してでも適応可能である。
  • Lin(2013)と同様に、full regression adjustment(FRA)の分散は、Pooled Regression Adjustment(PRA)や、共変量を使用しない単純平均の差(simple difference-in-mean: SDM)の場合より、分散が大きくなることはない。
  • 少なくともRAなしの場合と比較して、RAが分散を大きくすることはない。
  • 特に、RAがefficiency gainをもたらすケースは2種類ある。
    • 処置効果が個体ごとに異質性(heterogeneous)をもつ場合
    • 処置群と統制群の数が等しくない場合
  • small sample biasが懸念されない場合は、RAを使わない理由はない

結局共変量どう使えばいいの?(SDM, PRA, FRA)

結論後述の気をつけたい条件に該当しなければ、Full Regression Adjustment(FRA)を使うべき、と言うのがN&Wの主張です。
それぞれの共変量の使い方をみていきましょう。

Simple Differences-in-Mean(SDM)

Y_i = \alpha + \hat{\tau}_{SDM} W_i + \epsilon_i

W_i は 処置群に入っていれば1、統制群なら0となるダミー変数

この回帰式には、Xが含まれておらず、いわゆる単回帰分析です。
これをSDMと呼びます。

Pooled Regression Adjustment(PRA)

Y_i = \alpha + \hat{\tau}_{PRA} W_i + \gamma X_i + \epsilon_i

X_iは個体iの共変量(特徴量)のベクトルです。
この数式は"Pooled"という用語が強調するように、共変量X_iの係数 \gamma が、処置群と統制群の間で共通であることを仮定しています。
一般的な共変量を用いたRAの方法であるかなと感じます。
超体感ですが、無作為実験においては共変量がこの使われ方がしているケースが最も多い気がします。

Full Regression Adjustment(FRA)

Y_i = \alpha + \hat{\tau}_{FRA} W_i + \gamma_1 (X_i- \bar{X}) + \gamma_2 W_i (X_i - \bar{X})+ \epsilon_i

この回帰式では、PRAの共変量コントロールとは異なり、2つの項が発生しています。
分解してみましょう。

\gamma_1 (X_i- \bar{X})
平均値で中心化した共変量ベクトルが、Yに与える影響を\gamma_1で推定。これは処置群でも統制群でも共通の項です。

\gamma_2 W_i (X_i - \bar{X})
次に2項目を見てみましょう。
1項目と似ていますが、W_iが追加されています。
今回の回帰式では、W_iは1か0のダミー変数ですので、W_iの値によって2項目は以下のようになります。

\gamma_2 W_i (X_i - \bar{X})= \begin{cases} 0 & \text{if } W_i = 0 \quad \text{(control group)} \\ \gamma_2 (X_i - \bar{X}) & \text{if } W_i = 1 \quad \text{(treatment group)} \end{cases}

それでは、W_iの値によって、共変量の扱い方がどのように変化するかみてみましょう。

\gamma_1 (X_i - \bar{X}) + \gamma_2 W_i (X_i - \bar{X})= \begin{cases} \gamma_1 (X_i - \bar{X}) & \text{if } W_i = 0 \quad \text{(control group)} \\ (\gamma_1 + \gamma_2)(X_i - \bar{X}) & \text{if } W_i = 1 \quad \text{(treatment group)} \end{cases}

この回帰式では、処置群と統制群の間で、(平均値で中心化された)共変量の係数が異なることを仮定していることがわかります。なおここでの平均値は、サンプル全体における各共変量の平均値です。

N&Wは、この共変量の使い方(FRA)をしていれば、PRA,SDMと比較して漸近的に効率性が低くなることはない、ということをシミュレーションによって示しております。

追加で示していること

  • モデルがmisspecifiedされている場合でも、このFRAは効率性に関して同様の性質を持つ
    • 例えば、本来は非線形のデータであるにもかかわらず線形の仮定を置いて推定した場合も、分散が大きくなることはない。

気をつけたいこと

サンプルサイズが小さい場合、RAにおいては、注意すべきことがあります。
Tech企業におけるA/Bテストであれば、それほどサンプルサイズに困ることは少ないのかなと勝手に想像しておりますが、実験できる期間が長くない場合は困ることもあるかなと

  • サンプルサイズが小さい場合、RAが推定量の不偏性を損なう可能性があるため、SDMの方が望ましい場合が多い。
    • 具体的には、サンプルサイズが100~500の個人、20~100のユニット(学校や病院)である場合かつ、処置群と統制群の割合が極端にどちらかに偏っている場合、ATEの不偏性が損なわれる懸念が発生。
    • このサンプルサイズに関する問題は、small sample biasと呼ばれる
    • この場合は、RAせず、単純平均(SDM)の方が推奨される。

一言

実装もやりたいやりたい

参考文献

  • Freedman, D. A. (2008a). On regression adjustments in experiments with several treatments. The Annals of Applied Statistics 2(1):176–196. doi:10.1214/07-AOAS143
  • Freedman, D. A. (2008b). On regression adjustments to experimental data. Advances in Applied Mathematics 40(2): 180–193. doi:10.1016/j.aam.2006.12.003
  • Negi, A., & Wooldridge, J. M. (2020). Revisiting regression adjustment in experiments with heterogeneous treatment effects. Econometric Reviews, 40(5), 504–534.
  • Lin, W. (2013). Agnostic notes on regression adjustments to experimental data: Reexamining freedman’s critique. The Annals of Applied Statistics 7(1):295–318. doi:10.1214/12-AOAS583

Discussion