📊

論文紹介:Difference-in-Differences Designs: A Practitioner's Guide Part2

に公開

DID designs with multiple time periods

本ブログは前回の以下の記事の続きとなっております。
https://zenn.dev/dmmdata/articles/d8373cb7625c19
これまで単純な2×2設計(2グループ×2時点)に焦点を当ててきましたが、実務ではより長期間にわたるデータが利用可能な場合が多くあります。本記事では、複数時期のDIDについて解説します。

前提

複数時期の分析では、時間が t = 1, 2, ..., T まで拡張されます。各ユニット i の各時点 t における観察結果は次のように表現されます:

Y_{i,t} = D_i Y_{i,t}(1) + (1 - D_i)Y_{i,t}(0)

ここで、Y_{i,t} は観察された結果、D_i は処置グループへの割り当て(処置群なら1、対照群なら0)、Y_{i,t}(1)Y_{i,t}(0) はそれぞれ処置を受けた場合と受けなかった場合の潜在的結果を表します。

No-Anticipation仮定の下では、処置開始時点を g とすると、処置前期間(t < g)ではすべてのユニットが未処置状態にあるため Y_{i,t} = Y_{i,t}(0) となります。処置後期間(t \geq g)では、処置群は Y_{i,t}(1) を、対照群は引き続き Y_{i,t}(0) を観察することになります。

「イベントスタディ」という用語は、処置の前後にわたる一定範囲の時期において効果を推定し報告することを指します。1つの処置タイミンググループと複数の時期(2×T)を持つ設計は、イベントスタディを議論する最も単純なケースです。処置時点 gをイベント時間の原点(イベント時間0)として、各時点での処置効果を推定し、視覚的に表現することで、効果の動的な変化を見ることができます。

Figure 2は、2014年に拡大した郡と2019年までに拡大しなかった郡の20-64歳成人の死亡率トレンドを示しています。処置年である2014年が、データを処置前(2009-2013)と処置後(2014-2019)に分割します。

Event study estimates in the post-treatment periods

各時点 t における処置群の平均処置効果(ATT)は、標準的なDIDの考え方を拡張して次のように推定されます:

\widehat{ATT}(t) = (\bar{Y}_{w,D=1,t} - \bar{Y}_{w,D=1,t=g-1}) - (\bar{Y}_{w,D=0,t} - \bar{Y}_{w,D=0,t=g-1})

この推定式は、処置群における時点 t と基準時点(処置直前の g-1)の間の平均的な変化から、対照群における同じ期間の平均的な変化を差し引いたものです。Figure 3のイベントスタディでは、イベント時間0(2014年)の推定値は-2.6となっており、これは2×2分析の結果と一致します。

複数時期の分析において最も重要な識別仮定は、平行トレンド仮定の拡張版です。これを仮定PT-ES(おそらくParallel Trends for Event Studiesの略)と呼びます:

E_w[Y_{i,t}(0) - Y_{i,t=g-1}(0)|D_i = 1] = E_w[Y_{i,t}(0) - Y_{i,t=g-1}(0)|D_i = 0] \quad \forall t > g

この仮定はすべての処置後期間で成立する必要があります。つまり、長期的な効果を推定するためには、より長期間にわたって平行トレンドが維持されるという、より強い仮定が必要になります。

Event study estimates in the pre-periods

複数時期のデータは、処置前期間同士のDIDに基づくプラセボテストを行うことができます。No Anticipation仮定は、時間 g 以前のすべての ATT(t) がゼロに等しいことを意味します。
そこで、処置前の2つの時点(t = g-kt = g-1、ただし k > 1)で通常のDIDを行うと、処置群と対照群のトレンドの差を測定できます:

\tau_{-k} = E_w[Y_{i,t=g-k}(0) - Y_{i,t=g-1}(0)|D_i = 1] - E_w[Y_{i,t=g-k}(0) - Y_{i,t=g-1}(0)|D_i = 0]

処置前期間なので全員が未処置であり、この式は観察可能なデータで次のように書けます:

= E_w[Y_{i,t=g-k} - Y_{i,t=g-1}|D_i = 1] - E_w[Y_{i,t=g-k} - Y_{i,t=g-1}|D_i = 0]

\tau_{-k} は「差分トレンド(differential trends)」または「プレトレンド(pre-trends)」と呼ばれ、Figure 3では垂直の破線の左側に表示されています。理論的には、平行トレンドが成立していれば \tau_{-k} = 0 となるはずです。しかし、実際の分析では、プレトレンドの解釈には注意が必要です。

プレトレンドは平行トレンド仮定を直接検証するものではない

論文では次のように説明されています:

"Assumption PT-ES is not testable, as it only makes restrictions on untreated potential outcomes in post-treatment periods, t ≥ g. Under no-anticipation, pre-trends do measure differences in untreated outcome trends between treated and untreated units, but they necessarily measure them in the "wrong" periods t < g."

つまり、処置前のトレンドが平行だったとしても、それが処置後も続くという保証はないということです。プレトレンドは参考情報に過ぎず、真の平行トレンド仮定の直接的な証拠にはならないということです。

統計的検出力の問題

メディケイド拡大の例について、論文は以下のように説明されています。

"No individual τ_{-k} is statistically significant, so we fail to reject the null hypothesis that the pre-trend estimates equal zero (individually or jointly). This kind of result is often interpreted to mean that parallel trends holds. But the τ_{-k}'s also tend to be positive with a mean of about 2.3, which is larger in magnitude than all post-period point estimates except one."[省略]"The hypothesis tests for parallel pre-trends in Figure 3 are low-powered to detect practically important violations. [省略] They simply do not say very much."

要するに、統計的に有意でないという結果は、検出力不足のために何も分からない状態を示しているに過ぎず、平行トレンドの証拠とは言えないということでしょう。

プレトレンドの情報を最大限活用する方法

Rambachan and Roth (2023)の方法を適用した具体例が示されています:
(この論文を読んだわけではないため、論文での記載を紹介するにとどめます)

"The largest one-period pre-trend in Figure 3 is between event-time -5 and -4, when outcomes fall by roughly four deaths more in the expansion group versus the non-expansion group. If we assume that parallel trend violations are no bigger than this, the identified set for ATT(2014) is -2.6 ± 4 = [-6.6, 1.4], and given the size of the pre-period standard errors, we obtain a robust confidence interval of [-11.1, 5.1]."

(訳:Figure 3の最大の1期間プレトレンドは、イベント時間-5と-4の間で、拡大群の結果が非拡大群と比べて約4死亡多く減少している。平行トレンド違反がこれより大きくないと仮定すると、ATT(2014)の識別セットは -2.6 ± 4 = [-6.6, 1.4] となり、処置前期間の標準誤差の大きさを考慮すると、ロバスト信頼区間は [-11.1, 5.1] となる。)

プレトレンド違反への対処法

論文は、プレトレンドが違反を示唆する場合の対処法を提示しています:

"When pre-trends suggest that Assumption PT-ES fails, a way forward is to assume that it holds only after conditioning on covariates [省略] Alternatively, one can attempt to parametrically model the violations of parallel trends. Usually this is done by including unit-specific linear trends."

つまり、対処法として

  • 共変量を含める
  • ユニット固有の線形トレンドを含める

と紹介しています。ただし、論文ではこの方法は標準的なDID手順から逸脱し、トレンドが線形であるという仮定に依存することに注意が必要だと述べています。

Estimation and aggregating across time in event-studies

イベントスタディDIDではTWFE回帰を用いることが一般的です:

Y_{i,t} = \theta_t + \eta_i + \sum_{k=1}^{g-2} \beta_k (1\{G_i = g\} \cdot 1\{t = k\}) + \sum_{k=g}^{T} \beta_k (1\{G_i = g\} \cdot 1\{t = k\}) + \varepsilon_{i,t}

この回帰式の各要素は以下のように解釈されます:

  • Y_{i,t}:ユニット i の時点 t における結果変数
  • \theta_t:時間固定効果(各時点に共通のショックを捉える)
  • \eta_i:ユニット固定効果(各ユニット固有の時間不変な特性を制御)
  • \sum_{k=1}^{g-2} \beta_k (1\{G_i = g\} \cdot 1\{t = k\}):処置前期間の交互作用項(プレトレンド)
  • \sum_{k=g}^{T} \beta_k (1\{G_i = g\} \cdot 1\{t = k\}):処置後期間の交互作用項(処置効果)
  • \varepsilon_{i,t}:誤差項

重要なのは、t = g-1(処置直前期)の交互作用項を省略することです。これにより多重共線性を回避するとともに、すべての効果を処置直前期からの変化として解釈できるようになります。推定された係数は、処置前期間(k < g-1)ではプレトレンド \tau_{-(g-1-k)} を、処置後期間(k \geq g)では処置効果 ATT(k) を表します。この回帰は、単純な計算による推定と同じ結果になります

イベントスタディ分析では多数のパラメータを同時に推定するため、通常の信頼区間では多重検定の問題が生じます。Figure 3では、太い黒いバーが郡レベルでクラスター化された標準誤差に基づく点ごとの信頼区間を、赤い線が多重検定を考慮した同時信頼区間を示しています。

実務では、個々の時点の効果に加えて、処置後期間全体の平均効果を報告することがよくあります。この平均処置効果は次のように定義されます:

ATT_{avg} = \frac{1}{T-g+1}\sum_{t=g}^{T} ATT(t)

この推定値は、個々のATT(t)推定値から直接計算できます。しかし、実務でよく見られる次のような単純化された回帰には注意が必要です:

Y_{it} = \alpha_0 + \eta_i + \beta^{OLS} D_{it} + \epsilon_{it}

ここで D_{it}1[D_i = 1] \times 1\{t > g\} となります。この回帰から得られる \hat{\beta}^{OLS} は、一般に \widehat{ATT}_{avg} とは一致しません。なぜなら、\hat{\beta}^{OLS} は全処置前期間の平均を基準とするのに対し、\widehat{ATT}_{avg} は処置直前期のみを基準とするからです。実際にメディケイドの例では、\widehat{ATT}_{avg} = -0.70 に対して \hat{\beta}^{OLS} = -2.53 となり、大きく異なる値となっています。

Covariates in event studies

共変量を含む分析では、2×2設計での短期差分\Delta Y_{it=2} に代わって、各時点 t に対する長期差分Y_{it} - Y_{i,t=g-1} を考える必要があります。これは、各処置後時点に対して異なる期間長の差分を扱うことを意味し、共変量調整の方法もそれに応じて修正する必要があります。

回帰調整(RA)推定量:

ATT_{RA}(t) = E_w[Y_{it} - Y_{i,t=g-1}|D_i = 1] - E_w[E_w[Y_{it} - Y_{i,t=g-1}|X_i, D_i = 0]|D_i = 1]

逆傾向重み付け(IPW)推定量:

ATT_{IPW}(t) = E_w[(w_{w,D=1}(D_i) - w_{w,D=0}(D_i, X_i))(Y_{it} - Y_{i,t=g-1})]

二重ロバスト(DR)推定量:

ATT_{DR}(t) = E_w[(w_{w,D=1}(D_i) - w_{w,D=0}(D_i, X_i))(Y_{it} - Y_{i,t=g-1} - E_w[Y_{it} - Y_{i,t=g-1}|X_i, D_i = 0])]

Figure 4は、メディケイド拡大の分析に共変量調整を適用した結果を示しています。共変量には、2013年時点の郡人口に占める女性の割合、白人の割合、ヒスパニックの割合、失業率、中央値所得が含まれています。この例では、共変量調整の推定値と未調整の推定値にほとんど差がありませんでした。

しかし、Borgschulte and Vogler (2020)は、Lassoで選択した異なる共変量セットを用いたIPW推定を行い、より強い死亡率減少の証拠を得ていると本論文で紹介されています。これは、共変量の選択が結果に大きく影響することを示しており、処置割り当てと潜在的結果の変化の両方の決定要因を含めることが重要だと紹介されています。

最後に

本ブログでは、DID分析の基礎となる2×2デザインから、複数時期へ拡張したDIDについて解説しました。
次回のPart3では、処置のタイミングが異なるユニットが存在する場合のDIDであるStaggered DIDについて解説する予定です。

DMM Data Blog

Discussion