Selection Bias

Selection Bias#

Selection Bias#

観測できた各群の結果の平均値の差

\[ \frac{1}{N_1} \sum^{N_1}_{i: D_i = 1} y_i - \frac{1}{N_0} \sum^{N_0}_{i: D_i = 0} y_i \]

を使って推定する素朴なATE推定アプローチを潜在的結果を使って表すと

\[ E[Y(1)|D = 1] - E[Y(0)|D = 0] \]

となる。仮にこれをナイーブな推定量と呼ぶことにして、\(\tau_{naive}\)と表す。\(E[Y(0)|D = 1]\)を足して引くと

\[\begin{split} \begin{align} \tau_{naive} &= E[Y(1)|D = 1] - E[Y(0)|D = 0]\\ &= E[Y(1)|D = 1] - E[Y(0)|D = 1] + E[Y(0)|D = 1] - E[Y(0)|D = 0]\\ &= \underbrace{E[Y(1) - Y(0)|D = 1]}_{\text{ATT}} + \underbrace{E[Y(0)|D = 1] - E[Y(0)|D = 0]}_{\text{Selection Bias}}\\ \end{align} \end{split}\]

と表すことができる。

第1項の\(E[Y(1) - Y(0)|D = 1]\)は処置群における「処置を受けたときの結果\(Y(0)\)」と「処置を受けなかった場合の(反実仮想の)結果\(Y(0)\)」の差である。これを処置群に対する平均処置効果(average treatment effect on the treated: ATT or ATET)という。

処置群と対照群で平均的に処置効果に差がないと仮定すれば

\[\begin{split} \begin{align} \underbrace{E[Y(1) - Y(0)]}_{ATE} &= E[Y(1) - Y(0) | D = 1] P(D = 1) + E[Y(1) - Y(0)| D = 0] P(D = 0)\\ &= E[Y(1) - Y(0) | D = 1] \{ P(D = 1) + P(D = 0) \}\\ &= \underbrace{E[Y(1) - Y(0)|D = 1]}_{ATT} \end{align} \end{split}\]

となる。

第2項の\(E[Y(0)|D = 1] - E[Y(0)|D = 0]\)は、「処置群が仮に処置を受けなかったとした場合の結果の期待値」と「対照群が処置を受けなかった場合の期待値」の差であり、セレクション・バイアス(selection bias)と呼ばれる。 もしセレクション・バイアスが0であれば\(\tau_{naive} = ATT\)であり、さらに\(ATT=ATE\)であれば\(\tau_{naive}= ATE = \tau\)になる。そうでない場合は\(\tau_{naive} \neq \tau\)であり、単純な各群の期待値の差をとる方法は誤った分析結果を導くことになる。

Selection Biasの推定#

Sensitivity AnalysisによってSelection Biasの上界を求める方法が研究されている

[2302.06518] SelectionBias: An R Package for Bounding Selection Bias