論文紹介:Difference-in-Differences Designs: A Practitioner's Guide Part2
DID designs with multiple time periods
本ブログは前回の以下の記事の続きとなっております。
これまで単純な2×2設計(2グループ×2時点)に焦点を当ててきましたが、実務ではより長期間にわたるデータが利用可能な場合が多くあります。本記事では、複数時期のDIDについて解説します。前提
複数時期の分析では、時間が
ここで、
No-Anticipation仮定の下では、処置開始時点を
「イベントスタディ」という用語は、処置の前後にわたる一定範囲の時期において効果を推定し報告することを指します。1つの処置タイミンググループと複数の時期(2×T)を持つ設計は、イベントスタディを議論する最も単純なケースです。処置時点
Figure 2は、2014年に拡大した郡と2019年までに拡大しなかった郡の20-64歳成人の死亡率トレンドを示しています。処置年である2014年が、データを処置前(2009-2013)と処置後(2014-2019)に分割します。
Event study estimates in the post-treatment periods
各時点
この推定式は、処置群における時点
複数時期の分析において最も重要な識別仮定は、平行トレンド仮定の拡張版です。これを仮定PT-ES(おそらくParallel Trends for Event Studiesの略)と呼びます:
この仮定はすべての処置後期間で成立する必要があります。つまり、長期的な効果を推定するためには、より長期間にわたって平行トレンドが維持されるという、より強い仮定が必要になります。
Event study estimates in the pre-periods
複数時期のデータは、処置前期間同士のDIDに基づくプラセボテストを行うことができます。No Anticipation仮定は、時間
そこで、処置前の2つの時点(
処置前期間なので全員が未処置であり、この式は観察可能なデータで次のように書けます:
プレトレンドは平行トレンド仮定を直接検証するものではない
論文では次のように説明されています:
"Assumption PT-ES is not testable, as it only makes restrictions on untreated potential outcomes in post-treatment periods, t ≥ g. Under no-anticipation, pre-trends do measure differences in untreated outcome trends between treated and untreated units, but they necessarily measure them in the "wrong" periods t < g."
つまり、処置前のトレンドが平行だったとしても、それが処置後も続くという保証はないということです。プレトレンドは参考情報に過ぎず、真の平行トレンド仮定の直接的な証拠にはならないということです。
統計的検出力の問題
メディケイド拡大の例について、論文は以下のように説明されています。
"No individual
is statistically significant, so we fail to reject the null hypothesis that the pre-trend estimates equal zero (individually or jointly). This kind of result is often interpreted to mean that parallel trends holds. But the τ_{-k} s also tend to be positive with a mean of about 2.3, which is larger in magnitude than all post-period point estimates except one."[省略]"The hypothesis tests for parallel pre-trends in Figure 3 are low-powered to detect practically important violations. [省略] They simply do not say very much." τ_{-k}'
要するに、統計的に有意でないという結果は、検出力不足のために何も分からない状態を示しているに過ぎず、平行トレンドの証拠とは言えないということでしょう。
プレトレンドの情報を最大限活用する方法
Rambachan and Roth (2023)の方法を適用した具体例が示されています:
(この論文を読んだわけではないため、論文での記載を紹介するにとどめます)
"The largest one-period pre-trend in Figure 3 is between event-time -5 and -4, when outcomes fall by roughly four deaths more in the expansion group versus the non-expansion group. If we assume that parallel trend violations are no bigger than this, the identified set for ATT(2014) is -2.6 ± 4 = [-6.6, 1.4], and given the size of the pre-period standard errors, we obtain a robust confidence interval of [-11.1, 5.1]."
(訳:Figure 3の最大の1期間プレトレンドは、イベント時間-5と-4の間で、拡大群の結果が非拡大群と比べて約4死亡多く減少している。平行トレンド違反がこれより大きくないと仮定すると、ATT(2014)の識別セットは -2.6 ± 4 = [-6.6, 1.4] となり、処置前期間の標準誤差の大きさを考慮すると、ロバスト信頼区間は [-11.1, 5.1] となる。)
プレトレンド違反への対処法
論文は、プレトレンドが違反を示唆する場合の対処法を提示しています:
"When pre-trends suggest that Assumption PT-ES fails, a way forward is to assume that it holds only after conditioning on covariates [省略] Alternatively, one can attempt to parametrically model the violations of parallel trends. Usually this is done by including unit-specific linear trends."
つまり、対処法として
- 共変量を含める
- ユニット固有の線形トレンドを含める
と紹介しています。ただし、論文ではこの方法は標準的なDID手順から逸脱し、トレンドが線形であるという仮定に依存することに注意が必要だと述べています。
Estimation and aggregating across time in event-studies
イベントスタディDIDではTWFE回帰を用いることが一般的です:
この回帰式の各要素は以下のように解釈されます:
-
:ユニットY_{i,t} の時点i における結果変数t -
:時間固定効果(各時点に共通のショックを捉える)\theta_t -
:ユニット固定効果(各ユニット固有の時間不変な特性を制御)\eta_i -
:処置前期間の交互作用項(プレトレンド)\sum_{k=1}^{g-2} \beta_k (1\{G_i = g\} \cdot 1\{t = k\}) -
:処置後期間の交互作用項(処置効果)\sum_{k=g}^{T} \beta_k (1\{G_i = g\} \cdot 1\{t = k\}) -
:誤差項\varepsilon_{i,t}
重要なのは、
イベントスタディ分析では多数のパラメータを同時に推定するため、通常の信頼区間では多重検定の問題が生じます。Figure 3では、太い黒いバーが郡レベルでクラスター化された標準誤差に基づく点ごとの信頼区間を、赤い線が多重検定を考慮した同時信頼区間を示しています。
実務では、個々の時点の効果に加えて、処置後期間全体の平均効果を報告することがよくあります。この平均処置効果は次のように定義されます:
この推定値は、個々の
ここで
Covariates in event studies
共変量を含む分析では、2×2設計での短期差分
回帰調整(RA)推定量:
逆傾向重み付け(IPW)推定量:
二重ロバスト(DR)推定量:
Figure 4は、メディケイド拡大の分析に共変量調整を適用した結果を示しています。共変量には、2013年時点の郡人口に占める女性の割合、白人の割合、ヒスパニックの割合、失業率、中央値所得が含まれています。この例では、共変量調整の推定値と未調整の推定値にほとんど差がありませんでした。
しかし、Borgschulte and Vogler (2020)は、Lassoで選択した異なる共変量セットを用いたIPW推定を行い、より強い死亡率減少の証拠を得ていると本論文で紹介されています。これは、共変量の選択が結果に大きく影響することを示しており、処置割り当てと潜在的結果の変化の両方の決定要因を含めることが重要だと紹介されています。
最後に
本ブログでは、DID分析の基礎となる2×2デザインから、複数時期へ拡張したDIDについて解説しました。
次回のPart3では、処置のタイミングが異なるユニットが存在する場合のDIDであるStaggered DIDについて解説する予定です。
Discussion