E-value#
E-Valueは相対リスク(リスク比)などの比率で関連性を測るとき、未観測の交絡因子の影響の強さを簡単に測る方法。
観測された処置と結果の関連性(相対リスク)がすべて交絡因子による影響だと仮定すると、どれだけ交絡因子の影響が強いのか? を示す。
E-value (VanderWeele & Ding, 2017)
ここで \(\text{RR}\)は 相対リスク(relative risk) で、例えば「キャンペーンの有無」が「商品の購入の有無」に与える効果を調べたい場合だと
となる。これはRRが1より大きい場合で、もしRRが1より小さくなるなら逆数を用いる。
解釈#
E-valueが大きいほど、観測された結果と処置の関係は因果関係に近い(ロバストである)と解釈される。
例えばRRが1.5(処置で1.5倍改善)だとE-valueは2.37になる。これは、 もし未観測の交絡因子でこの推定結果を説明するには、未観測の交絡因子が結果変数と処置変数の両方と2.37倍の相対リスクで関連している必要がある ことを示す。
# 例
p_treatment = 0.15 # 処置群での購入割合
p_control = 0.10 # 対照群での購入割合
RR = p_treatment / p_control
import math
E = RR + math.sqrt(RR * (RR - 1))
print(f"E-value: {E:.3g}")
E-value: 2.37
注意点#
リスク比など比率で効果を測るときに使う(ATEのような差を見る場合は不適当)
媒介変数がなく、処置→結果と単純な関係を想定
導出#
結果を\(Y\)、処置を\(A\)、未観測の交絡因子を\(U\)とする。
\(U \to A\)の影響の強さを相対リスクで\(RR_{AU}\)と表す
\(U \to Y\)の影響の強さを相対リスクで\(RR_{UY}\)と表す
とすると、未観測の交絡因子の影響を受けた観測された相対リスクの上限(bounding factor, \(RR_{obs} \leq BF\))は
となる(Ding & VanderWeele, 2016)。
(ここからは推測を含む)
ここで \(RR_{U Y} = RR_{A U}\)と仮定して \(E\)とおく
ここで、 「観測された処置と結果の関連性\(RR_{obs}\) が すべて未観測の交絡因子による影響である場合(\(RR_{obs} = BF\))に交絡の強さ \(E=RR_{U Y} = RR_{A U}\) がいくつ必要か?」 という問題を解くことにする。
を変形すると
という二次方程式に整理できる。
二次方程式 \(x^2+b x+c=0\) の解の公式 \(x=\frac{-b \pm \sqrt{b^2-4 c}}{2}\) に対して \(b=-2 RR_{obs}, c = RR_{obs}\)とすると
\(RR_{obs}\)が正の場合に限定すれば
パッケージ#
DoWhyパッケージで作図を含めた関数がある
Sensitivity Analysis for Regression Models — DoWhy documentation