Difference In Differences

Difference In Differences#

差の差法（difference in differences: DID）

2群・2期間のDID#

最もシンプルな2群・2期間のDIDを例にとる。

結果変数を$Y$、処置変数を$X \in \{0, 1\}$とする。グループ$k$の時点$t$を$Y_{kt}$とすると、推定したい効果$\beta$だけでなくグループごとの固定効果$\alpha_k$と時間ごとの効果$\delta_t$も入ってくる。

\[ Y_{kt} = \beta X_{kt} + \alpha_k + \delta_t + \varepsilon_{kt} \]

グループ$k=1$（処置群: $X_{10}=0, X_{11}=1$）

処置前（$t=0$）：$Y_{10} = \beta X_{10} + \alpha_1 + \delta_0 + \varepsilon_{10} = \alpha_1 + \delta_0 + \varepsilon_{10}$
処置後（$t=1$）：$Y_{11} = \beta X_{11} + \alpha_1 + \delta_1 + \varepsilon_{11} = \beta + \alpha_1 + \delta_1 + \varepsilon_{11}$

グループ$k=0$（対照群: $X_{00} = X_{01} = 0$）

処置前（$t=0$）：$Y_{00} = \beta X_{00} + \alpha_0 + \delta_0 + \varepsilon_{00} = \alpha_0 + \delta_0 + \varepsilon_{00}$
処置後（$t=1$）：$Y_{01} = \beta X_{01} + \alpha_0 + \delta_1 + \varepsilon_{01} = \alpha_0 + \delta_1 + \varepsilon_{01}$

個体固定効果$\alpha_k$を除去するため、グループごとに処置前後で差分をとると

\[\begin{split} \begin{align} Y_{11} - Y_{10} &= \beta + \alpha_1 + \delta_1 + \varepsilon_{11} - (\alpha_1 + \delta_0 + \varepsilon_{10})\\ &= \beta + \alpha_1 - \alpha_1 + \delta_1 - \delta_0 + \varepsilon_{11} - \varepsilon_{10}\\ &= \beta + \delta_1 - \delta_0 + \varepsilon_{11} - \varepsilon_{10}\\ \\ Y_{01} - Y_{00} &= \alpha_0 + \delta_1 + \varepsilon_{01} - (\alpha_0 + \delta_0 + \varepsilon_{00})\\ &= \alpha_0 - \alpha_0 + \delta_1 - \delta_0 + \varepsilon_{01} - \varepsilon_{00}\\ &= \delta_1 - \delta_0 + \varepsilon_{01} - \varepsilon_{00}\\ \end{align} \end{split}\]

となり、時間固定効果$\delta_t$を除去するために両者の差をとると

\[\begin{split} \begin{align} (Y_{11} - Y_{10}) - (Y_{01} - Y_{00}) &= \beta + \delta_1 - \delta_0 + \varepsilon_{11} - \varepsilon_{10} - (\delta_1 - \delta_0 + \varepsilon_{01} - \varepsilon_{00})\\ &= \beta + \delta_1 - \delta_0 - (\delta_1 - \delta_0) + \varepsilon_{11} - \varepsilon_{10} - (\varepsilon_{01} - \varepsilon_{00})\\ &= \beta + \varepsilon_{11} - \varepsilon_{10} - (\varepsilon_{01} - \varepsilon_{00})\\ &\approx \beta \end{align} \end{split}\]

となる

2×2 DID#

2群2期間の最もシンプルなDIDを例に取る

処置群$T$と対照群$U$が存在し、処置前を$\text{Pre}$、処置後を$\text{Post}$とする。DID推定量は各群の処置前後の$Y$の平均の差

\[ \def\pre{ \text{Pre} } \def\post{ \text{Post} } \hat{\delta}^{2\times 2}_{TU} = \big( E[Y_T | \post] - E[Y_T | \pre] \big) - \big( E[Y_U | \post] - E[Y_U | \pre] \big) \]

である。潜在的結果で表記すると次のようになる。

\[ \hat{\delta}^{2\times 2}_{TU} = \big( E[Y^1_T | \post] - E[Y^0_T | \pre] \big) - \big( E[Y^0_U | \post] - E[Y^0_U | \pre] \big) \]

ゼロを加えて整理すると

\[\begin{split} \begin{align} \hat{\delta}^{2\times 2}_{TU} &= \big( E[Y^1_T | \post] - E[Y^0_T | \pre] \big) - \big( E[Y^0_U | \post] - E[Y^0_U | \pre] \big) + \underbrace{ E[Y^0_T | \post] - E[Y^0_T | \post] }_{0} \\ &= \underbrace{ E[Y^1_T | \post] - E[Y^0_T | \post] }_{ATT} + \underbrace{ \big[ E[Y^0_T | \post] - E[Y^0_T | \pre] \big] - \big[ E[Y^0_U | \post] - E[Y^0_U | \pre] \big] }_{並行トレンドが成り立たない場合のバイアス} \end{align} \end{split}\]

となる。

時間固定効果がすべてのユニット（観測対象）で同じであり、期間の間で変化しないことを並行トレンド（parallel trends）の仮定と呼ぶ。並行トレンドの仮定が成り立てばDID推定量はATTを推定することになる。

なお、ここで$E[Y^0_T|\post]$は実際には観測できない反実仮想であるため、並行トレンドの存在は検証不可能である。

TWFE推定量との関係#

二元配置固定効果（Two-Ways Fixed Effect: TWFE）モデル

\[ Y_{it} = \alpha_i + \lambda_t + \delta X_{it} + \epsilon_{it} \]

$\alpha_i$：個体固定効果
$\lambda_t$：時間固定効果
$X_{it}$：処置変数

TWFEモデルはDIDの推定に使われる

Baconの分解定理#

TWFE推定量は2×2DID推定量の加重和となる（なお重みはすべて正）

Note

定理（Theorem 1, Goodman-Bacon 2021） $$ \hat{\delta}^{TWFE} = \sum_{k\neq u} s_{ku} \hat{\delta}_{ku}^{2\times 2}

\sum_{k\neq u} \sum_{l > k} \left[ s_{kl}^k \hat{\delta}^{2\times 2, k}{kl} + s{kl}^l \hat{\delta}^{2\times 2, l}_{kl} \right] $$

標準誤差#

クラスタ数が少ない場合#

処置ユニット数が1つしかない、という極端なケースではクラスタ数が少ない場合に向けて提案されたワイルドブートストラップであっても、シミュレーション上では有意水準5%での過剰棄却率は80%となる( Cameron et al., 2008; MacKinnon & Webb, 2018)。

処置群のユニット数が1つしかないような極端なケースではランダム化推論（randomization inference）を使用することが好ましいとされる（Buchmueller et al., 2011）。

ランダム化推論#

TODO

並行トレンドの仮定の検証#

並行リード#

処置が行われる前の時点（リード lead）において並行なトレンドが存在していたことを確認する、という方法。

ある程度の確認はできるが、直接的に並行トレンドの存在を検証できるわけではない（例えばコインを2回投げて2回とも表が出たからと言って、3回目も表が出るとは限らない）

外生性#

並行トレンドの仮定が明らかに成立しない状況は、処置そのものが内生的である場合である。この場合は処置は潜在的結果に依存し、処置がもしなければ結果も平行じゃない変化をしていたと考えられる。

Multiple Timeperiod#

処置を行う時点が複数ある場合の対処について。

1. 生データを年ごとにプロットする方法#

デメリットは

グラフが多すぎて、手間がかかり、見栄えが悪い
対照群が未処置群（never treated）だけの想定をする場合、誤る
- Goodman-Bacon, 2021はどんなDIDもtreatment, never treated, early treated, late treatedの4種類があると示している

2. 処置の時点をt=0に再中心化する#

デメリットは対照群をプロットできるものの、回帰分析で実際につかわれるものと一致しない（Goodman-Bacon, 2021）

Two Way Fixed Effect Event Study#

Two Way Fixed Effect Event Study

\[ Y_{i,t} = \beta_i + \eta_t + \sum_l \gamma_l \mathbf{1}[t-s_i = l] + \varepsilon_{i,t} \]

$\beta_i$：グループ固定効果
$\eta_t$：時間固定効果
$l$：介入開始からの期数。期間数$T$に対し$l\in [-T, T]$
$\gamma_l$：開始からの期数ごとの介入効果
$s_i$：介入開始タイミング

別称：Event Study、Dynamic DiD、Dynamic TWFE

Note

EventStudyはバイアスを含む

効果の大きさと介入タイミングに関連があるときにバイアスが生じることが知られている。

例えば複数の店舗での施策導入で「効果が大きそうな店舗から順に導入を進めるケース」

Takuma KamadaさんはTwitterを使っています: 「@RyotaMugiyama 最近のDiD研究だと、イベントを受けるタイミングが異なって、かつトリートメント効果が時間を通じて変動する場合、two way fixed effectsでのevent study推定値はバイアスすることが示されてる。https://t.co/hOtwFhLjWJ」 / Twitter

Staggered DiD#

処置の時点が複数ある場合のDiDで、TWFE Event Studyの課題を解消するタイプのものは総称としてStaggered DID（段階的DID）と呼ばれる

Sun and Abraham (2021) の手法

「コーホート×開始からの期数」ごとに推定し、それを集約するのが Sun and Abraham (2021)の提案手法

\[ Y_{i,t} = \beta_i + \eta_t + \sum_l \gamma_{c,l} \mathbf{1}[t-s_i = l] \cdot \mathbf{1}[\text{Cohort}_i = c] + \varepsilon_{i,t} \]

$\beta_i$：グループ固定効果
$\eta_t$：時間固定効果
$l$：介入開始からの期数。期間数$T$に対し$l\in [-T, T]$
$\gamma_{c,l}$：コーホート×開始からの期数ごとの介入効果
$s_i$：介入開始タイミング

参考文献

Synthetic Difference In Differences#

Synthetic Controlとの融合手法

Clarke, D., Pailañir, D., Athey, S., & Imbens, G. (2023). Synthetic Difference In Differences Estimation. arXiv preprint arXiv:2301.11859.

matrix completion#

Athey et al. (2021). Matrix completion methods for causal panel data models. Journal of the American Statistical Association, 116(536), 1716-1730.

行列補完（matrix completion）という機械学習ベースの手法

論文#

Goodman-Bacon (2019)#

Goodman-Bacon (2019) “Difference-in-Differences with Variation in Treatment Timing”

Goodman-Bacon (2021) は 二元配置固定効果（two-way fixed effect）推定量が、すべてのあり得る2×2のDID推定量の重み付き平均であるという定理を示した。

例えば、DID推定量$\hat{\beta}^{DD}$をtwo-way fixed effects modelとして表すと

\[ y_{it} = \alpha_i + \alpha_t + \hat{\beta}^{DD} D_{it} + u_{it} \]

であり、これは処置が複数時点（ここでは2時点）にわたる場合は

\[ \hat{\beta}^{DD} = s_{kU} \hat{\beta}^{DD}_{kU} + s_{\ell U} \hat{\beta}^{DD}_{\ell U} + [ s_{k \ell} \hat{\beta}^{DD}_{k \ell} + s_{\ell k} \hat{\beta}^{DD}_{\ell k} ] \]

という加重平均になる。ここで

$\hat{\beta}^{DD}_{kU}$は最初の処置群kと非処置群$U$のDiD推定量
$\hat{\beta}^{DD}_{\ell U}$は二番目の処置群$\ell$と非処置群$U$のDiD推定量
$s_{k \ell} \hat{\beta}^{DD}_{k \ell}$：$k$は処置される前後の期間（処置群）を使い、$\ell$は処置前の期間を使う（対照群）場合のDiD推定量
$s_{\ell k} \hat{\beta}^{DD}_{\ell k}$：$k$は処置後のみの期間（対照群）で$\ell$は処置前後の期間（処置群）のDiD推定量

である

Athey & Imbens (2022)#

Athey, S., & Imbens, G. W. (2022). Design-based analysis in difference-in-differences settings with staggered adoption. Journal of Econometrics, 226(1), 62-79. [pdf]

処置のタイミングが複数ある場合であっても、割当がランダムなら標準的なDIDが特定の加重平均因果効果の不偏推定量となる

We show that under random assignment of the adoption date the standard Difference-In-Differences (DID) estimator is an unbiased estimator of a particular weighted average causal effect.

パッケージ#

R: `{did}`パッケージ#

Treatment Effects with Multiple Periods and Groups • did

以下に対応可能

2時点以上の期間
処置の時点が異なる
並行トレンド仮定は共変量で条件づけたときのみ成立する

理論面の説明

参考文献#

サーベイ#

[2201.01194] What’s Trending in Difference-in-Differences? A Synthesis of the Recent Econometrics Literature

Canonical Assumption	理論的拡張（assumptionsの緩和）
Parallel Trend	共変量で条件づけたときだけParallel Trend
Single periods	Multiple periods and variation in treatment timing

Difference-in-differences in 2020: Common pitfalls and how to avoid them - YouTube

DID on distribution#

https://twitter.com/KwekuOA/status/1676679605355151362

https://twitter.com/KwekuOA/status/1676681754952839169

https://twitter.com/KwekuOA/status/1667285957245038594

Differences-in-Differences on Distribution Functions for Program Evaluations

拡張IPW推定を拡張
各時点でのユニットの処置をIPWで補正
Wasserstein距離で処置前後の分布を比較