Selection Bias

Selection Bias#

Selection Bias#

観測できた各群の結果の平均値の差

1N1i:Di=1N1yi1N0i:Di=0N0yi

を使って推定する素朴なATE推定アプローチを潜在的結果を使って表すと

E[Y(1)|D=1]E[Y(0)|D=0]

となる。仮にこれをナイーブな推定量と呼ぶことにして、τnaiveと表す。E[Y(0)|D=1]を足して引くと

τnaive=E[Y(1)|D=1]E[Y(0)|D=0]=E[Y(1)|D=1]E[Y(0)|D=1]+E[Y(0)|D=1]E[Y(0)|D=0]=E[Y(1)Y(0)|D=1]ATT+E[Y(0)|D=1]E[Y(0)|D=0]Selection Bias

と表すことができる。

第1項のE[Y(1)Y(0)|D=1]は処置群における「処置を受けたときの結果Y(0)」と「処置を受けなかった場合の(反実仮想の)結果Y(0)」の差である。これを処置群に対する平均処置効果(average treatment effect on the treated: ATT or ATET)という。

処置群と対照群で平均的に処置効果に差がないと仮定すれば

E[Y(1)Y(0)]ATE=E[Y(1)Y(0)|D=1]P(D=1)+E[Y(1)Y(0)|D=0]P(D=0)=E[Y(1)Y(0)|D=1]{P(D=1)+P(D=0)}=E[Y(1)Y(0)|D=1]ATT

となる。

第2項のE[Y(0)|D=1]E[Y(0)|D=0]は、「処置群が仮に処置を受けなかったとした場合の結果の期待値」と「対照群が処置を受けなかった場合の期待値」の差であり、セレクション・バイアス(selection bias)と呼ばれる。 もしセレクション・バイアスが0であればτnaive=ATTであり、さらにATT=ATEであればτnaive=ATE=τになる。そうでない場合はτnaiveτであり、単純な各群の期待値の差をとる方法は誤った分析結果を導くことになる。

Selection Biasの推定#

Sensitivity AnalysisによってSelection Biasの上界を求める方法が研究されている

[2302.06518] SelectionBias: An R Package for Bounding Selection Bias