因果推論的な説明
強く無視できる割当条件(条件付き独立性)を満たして、相関=因果の状態に持っていくため
例えば、「チョコレートを多く消費する国ほどノーベル賞の受賞率が高い」という相関があったとき、「チョコレートの国民1人あたりの年間消費量が5kg以上である」を処置\(D\in\{0,1\}\)として、「ノーベル賞の国民1000万人あたりの受賞者数」を結果\(Y\in\mathbb{R}\)とした因果効果を調べたいとする。
ナイーブな推定量
処置群と対照群の結果の平均を単純に比較するナイーブな処置効果の推定量\(\tau_{naive}\)は
\[
\tau_{naive}
= E[Y(1)|D = 1] - E[Y(0)|D = 0]
\]
となる。これは\(E[Y(0)|D = 1]\)を足して引くと
\[\begin{split}
\begin{align}
\tau_{naive}
&= E[Y(1)|D = 1] - E[Y(0)|D = 0]\\
&= E[Y(1)|D = 1] - E[Y(0)|D = 1] + E[Y(0)|D = 1] - E[Y(0)|D = 0]\\
&= \underbrace{E[Y(1) - Y(0)|D = 1]}_{\text{ATT}}
+ \underbrace{E[Y(0)|D = 1] - E[Y(0)|D = 0]}_{\text{Selection Bias}}\\
\end{align}
\end{split}\]
となり、セレクションバイアス\(E[Y(0)|D = 1] - E[Y(0)|D = 0]\)が含まれるので、これがゼロとならなければ\(\tau_{naive}\)と\(ATT\)は一致しない。
セレクションバイアスは、「処置群が仮に処置を受けなかったとした場合の結果の期待値\(E[Y(0)|D = 1]\)」と「対照群が処置を受けなかった場合の期待値\(E[Y(0)|D = 0]\)」の差
→ 処置群と対照群の性質の差があるとこれがゼロにならない。例えば、「1人あたりGDPが高い(裕福な国)ほどチョコレートの消費量が多い」など。
無作為割当の場合
もし処置の割当\(D\)が無作為(ランダム)であれば潜在的結果\(Y(0), Y(1)\)とは独立
\[
\newcommand{\indep}{\mathop{\hspace{0.1em} \perp\!\!\!\perp \hspace{0.1em}}}
(Y(0), Y(1)) \indep D
\]
となり
\[\begin{split}
E[Y(0)| D = 0] = E[Y(0)]\\
E[Y(1)| D = 1] = E[Y(1)]
\end{split}\]
になるため、ナイーブな推定量が\(ATE = E[Y(1)] - E[Y(0)]\)の推定量となる。
強く無視できる割り当て条件
共変量\(\boldsymbol{X}\)を条件付けた下での処置割当\(D\)と結果\(Y(0), Y(1)\)の独立(条件付き独立 conditional independence)
\[
\newcommand{\indep}{\mathop{\hspace{0.1em} \perp\!\!\!\perp \hspace{0.1em}}}
(Y(0), Y(1)) \indep D | \boldsymbol{X}
\]
を強く無視できる割り当て(strongly ignorable treatment assignment)条件という。
この条件が成立するとき、平均での独立性(mean independence)
\[\begin{split}
E[Y|D=0, \boldsymbol{X}] = E[Y(0)|D, \boldsymbol{X}] = E[Y(0)|\boldsymbol{X}]\\
E[Y|D=1, \boldsymbol{X}] = E[Y(1)|D, \boldsymbol{X}] = E[Y(1)|\boldsymbol{X}]
\end{split}\]
が成立する。
そこから共変量について期待値をとればATEが推定できる
\[
E_{\boldsymbol{X}} [ E[Y(1) - Y(0)|\boldsymbol{X}] ] = E[Y(1) - Y(0)]
\]
数理統計学的な説明
(回帰分析の場合)回帰係数の推定量が母回帰係数の一致推定量になるためには外生性を満たす必要があるため
例えば、結果\(Y\)を処置\(D\)に回帰した単回帰モデル
\[
Y = \beta_0 + \beta_1 D + v
\]
を考える。
\(\beta_1\)のOLS推定量は
\[
\beta_1^{OLS} = \frac{ Cov(D, Y)}{ Var(D) }
\]
となる。
モデルの両辺の期待値をとって切片項について解いた
\[\begin{split}
E[Y] = \beta_0 + \beta_1 E[D] + E[v]\\
\to \beta_0 = E[Y] - \beta_1 E[D] - E[v]\\
\end{split}\]
を代入すると
\[\begin{split}
Y = \beta_0 + \beta_1 D + v\\
\to Y = E[Y] - \beta_1 E[D] - E[v] + \beta_1 D + v\\
\to Y - E[Y] = \beta_1 (D - E[D])+ v - E[v]\\
\end{split}\]
の両辺に\(D\)を乗じて期待値をとると
\[\begin{split}
\underbrace{ E[D( Y - E[Y])] }_{ =E[DY] - E[D]E[Y] \\ =Cov(D, Y)}
= \beta_1 \underbrace{ E[D(D - E[D])] }_{ =E[D^2] - E[D]^2 \\ = Var(D) }
+ \underbrace{ E[D(v - E[v])] }_{ =E[Dv] - E[D]E[v] \\ = Cov(D, v) }\\
\to \underbrace{ \frac{ Cov(D, Y)}{ Var(D) } }_{\beta_1^{OLS}}
= \beta_1 + \frac{ Cov(D, v) }{ Var(D) }\\
\end{split}\]
となり、\(Cov(D, v)\)がゼロでない場合(=\(D\)が外生性を満たさない場合)にOLS推定量はバイアスを持つ。