📊

DID法と繰り返しのある二元配置分散分析の違いのメモ

2023/05/24に公開

DID法と繰り返しのある二元配置分散分析って似た形をしているなあと思いながら、違いを考えたのでメモです。

何が似ているか

解きたい問題が似ていると思われます。
DIDでは割付がランダムでなく、被説明変数の平均値が最初から差を持っている2群のうち、片方に対して何かしらの処置を実施し、実施前後の平均的な処置効果の大きさを調べています。
なお、線形回帰としてとらえることで係数として推定されるので、統計的に有意な差であるかも調べることができます。
繰り返しのある二元配置分散分析では、二つの要因を考えつつ、同じ要因の組み合わせで繰り返し実験を実施し、その効果の有意差を調べます。

繰り返しのある二元配置分散分析において、群と時間を要因とすればDIDと同じようになるように思えますが、仮定している線形モデルが異なります。

DIDが仮定する線形モデル

{\bar y}_{ij} = \alpha + \beta s + \gamma t + \delta st + \epsilon_{ij}

ここで $i,j = {0,1}$ として二つの要因の有無を、 ${\bar y}_{ij}$ は要因の組( $i,j$ )に当たるサンプルの被説明変数の平均値、 $\alpha, \beta, \gamma, \epsilon$ はそれぞれバイアス、i=1に固有な効果、 $j=1$ に固有な効果、 $i=1,j=1$ の時に生じる交互作用、 $s,t$ はそれぞれ添え字 $i,j$ が1であるかのダミー変数を表しています。 $\epsilon_{ij}$ は独立なノイズです。
$i,j$ の組み合わせで4つの線形方程式が得られるので、それらを4点のデータとして線形回帰を行うことで交互作用 $\delta$ を推定できます。

二元配置分散分析における線形モデル

{\bar y}_{ij} = \alpha + \beta_i + \gamma_j + \delta_{ij} + \epsilon_{ij}

ここで $i,j$ は上記と同じものを示し、 $\alpha$ は同じくバイアス、 $\beta_i, \gamma_j, \delta_{ij}$ はそれぞれその要因における効果量を示します。 $\delta_{ij}$ は交互作用です。
ただしこれは各要因、交互作用が有意であるとされたときであり、有意でないとされたときはこの線形モデルに含みません。
$\beta_i, \gamma_j, \delta_{ij}$ を求めるとき、 $\beta_i, \gamma_j$ に関しては総和がゼロ、 $\delta_{ij}$ に関して、i,jどちらかで総和を取った時にどちらもゼロになるという制約条件を置いて求めます。（竹村現代数理統計学より　違うかも）

どう違うのか

大体同じに見えますが、求め方がかなり異なります。
DIDの場合は各要因における効果が存在すると仮定したうえで線形回帰ないし差分の差分を取って交互作用を調べます。
分散分析の場合は、要因や交互作用ごとに有意差があることを調べ、有意差がある要因の変数のみ残し、連立方程式的に各効果の大きさを求めて効果量とします。
この違いによって、計算される効果量が違います。有意でない要因があれば方程式が違いますし、すべて有意であっても、制約条件によって明らかに各要因の効果がマイナスになります。そこの差分はバイアス項に吸収されると思われます。統計ソフトでは分散分析表を出すまでが多いのか調べても実際のところあまりこの辺りはどうなってるのかはわかりませんでした。
一方でDIDは線形モデルによる仮定のために、平行性の仮定が必要になると思われます。

使い分けとしては、DIDは3水準にはできないので、時間方向に3点以上取りたい、群を三つにしたいなどの場合は分散分析になると思われます。
ただその場合は異なる3群にそれぞれ異なる施策を実施してその時系列変化をみるということなので中々ドラスティックなことをしていることになるわけですが...。

個人的に平行性の仮定を調べるのはめんどいし、有意差だけ調べたいことが多いので、施策前、施策開始時点、施策後の時間方向に3水準とってきて分散分析がいいなと思いました。

何が似ているか

DIDが仮定する線形モデル

二元配置分散分析における線形モデル

どう違うのか

Discussion