ルービンの因果モデル#

ルービンの因果モデル(rubin causal model)は潜在的結果と割当のメカニズムに着目して因果推論を検討するアプローチ(Rubin 1974, Holland 1986)。

用語#

潜在的結果#

ある個体が「介入を受けた場合」と「介入を受けなかった場合」の結果を、実際に介入があったかどうかに関わらず定めたものを潜在的結果(potential outcome)という。

  • 対照群(control group):介入を受けなかった(\(D=0\)の)場合

  • 処置群(treatment group):介入を受けた(\(D=1\)の)場合

  • 個体\(i\)が介入を受けなかった時の潜在的結果:\(Y_i(0)\)

  • 個体\(i\)が介入を受けた時の潜在的結果:\(Y_i(1)\)

実際の観察結果は\(Y_i\)とする

\[\begin{split} Y_i = \left\{ \begin{array}{l} Y_i(0) \ \text{if } D_i = 0 \\ Y_i(1) \ \text{if } D_i=1 \end{array} \right. \end{split}\]

次のように書くこともできる

\[ Y_i = Y_i(D_i) = Y_i(0)(1-D_i) + Y_i(1)D \]

因果効果#

因果の定義の仕方はいろいろあるが、ルービン因果モデルにおいては「ある個体が介入\(D\)を受けた場合に、受けなかった場合の結果\(Y\)と比べた結果\(Y_1\)の差\(Y_1 - Y_0\)」を「\(D\)因果効果(causal effect)」とする。なお、因果効果と同様の意味で処置効果(treatment effect)という言葉も使われる。

個体\(i\)の因果効果(個体処置効果 individual treatment effect: ITE) は

\[ \tau_i = Y_i(1)-Y_i(0) \]

となる。

ただし、実際には実行された処置についての結果しか観測することができないため、\(\tau_i\)は観測することはできない。このことは因果推論の根本問題と呼ばれる。

平均処置効果#

ITEの推定は難しいため、通常は平均での処置効果を推定することを考える

\[ \tau = E[Y(1) - Y(0)] = E[Y(1)] - E[Y(0)] \]

これを平均処置効果(average treatment effect: ATE)という。平均因果効果(average causal effect: ACE)という呼び方や、母集団レベルの議論であることを明示した母集団平均処置効果(population average treatment effect: PATE)という呼び方も存在する。

ATEの推定#

ナイーブな推定量#

素朴に思いつく推定方法は、観測できた各群の結果の平均値の差

\[ \frac{1}{N_1} \sum^{N_1}_{i: D_i = 1} y_i - \frac{1}{N_0} \sum^{N_0}_{i: D_i = 0} y_i \]

を使って推定するアプローチであろう。 これは潜在的結果を使って表すと

\[ \tau_{naive} = E[Y(1)|D = 1] - E[Y(0)|D = 0] \]

となり、ATEとは異なる。仮にこれをナイーブな推定量と呼ぶことにして、\(\tau_{naive}\)と表す。 これは\(E[Y(0)|D = 1]\)を足して引くと

\[\begin{split} \begin{align} \tau_{naive} &= E[Y(1)|D = 1] - E[Y(0)|D = 0]\\ &= E[Y(1)|D = 1] - E[Y(0)|D = 1] + E[Y(0)|D = 1] - E[Y(0)|D = 0]\\ &= \underbrace{E[Y(1) - Y(0)|D = 1]}_{\text{ATT}} + \underbrace{E[Y(0)|D = 1] - E[Y(0)|D = 0]}_{\text{Selection Bias}}\\ \end{align} \end{split}\]

と表すことができる。

第1項の\(E[Y(1) - Y(0)|D = 1]\)は処置群における「処置を受けたときの結果\(Y(0)\)」と「処置を受けなかった場合の(反実仮想の)結果\(Y(0)\)」の差である。これを処置群に対する平均処置効果(average treatment effect on the treated: ATT or ATET)という。

処置群と対照群で平均的に処置効果に差がないと仮定すれば

\[\begin{split} \begin{align} \underbrace{E[Y(1) - Y(0)]}_{ATE} &= E[Y(1) - Y(0) | D = 1] P(D = 1) + E[Y(1) - Y(0)| D = 0] P(D = 0)\\ &= E[Y(1) - Y(0) | D = 1] \{ P(D = 1) + P(D = 0) \}\\ &= \underbrace{E[Y(1) - Y(0)|D = 1]}_{ATT} \end{align} \end{split}\]

となる。

第2項の\(E[Y(0)|D = 1] - E[Y(0)|D = 0]\)は、「処置群が仮に処置を受けなかったとした場合の結果の期待値」と「対照群が処置を受けなかった場合の期待値」の差であり、セレクション・バイアス(selection bias)と呼ばれる。 もしセレクション・バイアスが0であれば\(\tau_{naive} = ATT\)であり、さらに\(ATT=ATE\)であれば\(\tau_{naive}= ATE = \tau\)になる。そうでない場合は\(\tau_{naive} \neq \tau\)であり、単純な各群の期待値の差をとる方法は誤った分析結果を導くことになる。

Note

もう少し厳密な話

ATT = ATEの仮定を置かずに厳密に書くと

\[\begin{split} \begin{align} \underbrace{ E[Y(1)|D = 1] - E[Y(0)|D = 0] }_{ \tau_{naive} } &= \underbrace{E[Y(1)] - E[Y(0)]}_{ \text{ATE}} + \underbrace{E[Y(0)| D=1] - E[Y(0)| D=0]}_{ \text{Selection bias}} \\ & + \underbrace{(1-\pi)(ATT - ATU)}_{ \text{Heterogeneous treatment effect bias}} \end{align} \end{split}\]

となるらしい。ここで\(\pi\)は処置を受ける割合であり、ATUは対照群における平均処置効果である。

また、

\[ ATE = \pi ATT+(1-\pi)ATU \]

という関係がある。

導出
\[\begin{split} \begin{align} E\big[Y^1\mid D=1\big] & = a \\ E\big[Y^1\mid D=0\big] & = b \\ E\big[Y^0\mid D=1\big] & = c \\ E\big[Y^0\mid D=0\big] & = d \\ ATE & = e \end{align} \end{split}\]

とおくと、

\[\begin{split} \begin{align} e & =\big\{\pi{a}+(1-\pi)b\big\}-\big\{\pi{c} + (1-\pi)d\big\} \\ e & =\pi{a}+b-\pi{b}-\pi{c} - d + \pi{d} \\ e & =\pi{a}+ b-\pi{b}-\pi{c} - d + \pi{d} + (\mathbf{a} - \mathbf{a}) + (\mathbf{c} - \mathbf{c}) + (\mathbf{d} - \mathbf{d}) \\ 0 & =e-\pi{a} - b + \pi{b} + \pi{c} + d - \pi{d} - \mathbf{a} + \mathbf{a} - \mathbf{c} + \mathbf{c} - \mathbf{d} + \mathbf{d} \\ \mathbf{a}-\mathbf{d} & =e-\pi{a} - b + \pi{b} + \pi{c} + d - \pi{d} +\mathbf{a} -\mathbf{c} +\mathbf{c} - \mathbf{d} \\ \mathbf{a}-\mathbf{d} & =e + (\mathbf{c} -\mathbf{d}) + \mathbf{a}-\pi{a} - b + \pi{b} -\mathbf{c} + \pi{c} + d - \pi{d} \\ \mathbf{a}-\mathbf{d} & =e + (\mathbf{c} -\mathbf{d}) + (1-\pi)a -(1-\pi)b + (1-\pi)d - (1-\pi)c \\ \mathbf{a}-\mathbf{d} & =e + (\mathbf{c} -\mathbf{d}) + (1-\pi)(a-c) -(1-\pi)(b-d) \end{align} \end{split}\]

(参考:Causal Inference The Mixtape - 4  Potential Outcomes Causal Model

例:ダイレクトメール(DM)配布

あるサービスの広告目的でDMを配布するとする。

このとき、あらかじめ(DM施策以前から)成約率が高いことがわかっているエリアのみに配布したらどうなるだろうか。

例えば、成約率の高いエリアはもともとの成約率が0.3で、実際に実験時点においても\(E[Y(0)|D=1] = 0.3\)だったとする

実際に観測されたのは

\[\begin{split} E[Y|D=1] = 0.4\\ E[Y|D=0] = 0.2 \end{split}\]

だったとする。

両者の差分\(\tau_{naive}\)\(0.4-0.2=0.2\)となる。

しかし、DMが配布されたエリアはもともと成約率が高かったので、セレクション・バイアス\(E[Y(0)|D=1] - E[Y(0)|D=0]\)\(0.3 - 0.2 = 0.1\)となり、\(\tau_{naive}\)は0.1だけ過大にATEを推定していることになる。

../_images/ffe3800e8eab98c392f706f77e4c3fd3356b46880451b23c0631b46b4efa33bf.png

無作為割り当ての場合#

もし処置の割当\(D\)が無作為(ランダム)であれば潜在的結果\(Y(0), Y(1)\)とは独立

\[ \newcommand{\indep}{\mathop{\hspace{0.1em} \perp\!\!\!\perp \hspace{0.1em}}} (Y(0), Y(1)) \indep D \]

となり

\[\begin{split} E[Y(0)| D = 0] = E[Y(0)]\\ E[Y(1)| D = 1] = E[Y(1)] \end{split}\]

になるため、ナイーブな推定量がATEの推定量となる。

回帰分析によるATE推定#

回帰分析は条件付き期待値\(E[Y|D, \boldsymbol{X}]\)を推定する方法であるため、二値変数の割当変数\(D\in \{0, 1\}\)を説明変数に含めた

\[ Y = \tau D + \boldsymbol{X \beta} + \varepsilon \]

では回帰係数\(\tau\)は切片の違いすなわち両群の平均の差を表現しているため、\(\tau\)をATEの推定値と解釈することができる。

強く無視できる割り当て条件#

共変量\(\boldsymbol{X}\)を条件付けた下での処置割当\(D\)と結果\(Y(0), Y(1)\)の独立(条件付き独立 conditional independence)

\[ \newcommand{\indep}{\mathop{\hspace{0.1em} \perp\!\!\!\perp \hspace{0.1em}}} (Y(0), Y(1)) \indep D | \boldsymbol{X} \]

強く無視できる割り当て(strongly ignorable treatment assignment)条件という。

この条件が成立するとき、平均での独立性(mean independence)

\[\begin{split} E[Y|D=0, \boldsymbol{X}] = E[Y(0)|D, \boldsymbol{X}] = E[Y(0)|\boldsymbol{X}]\\ E[Y|D=1, \boldsymbol{X}] = E[Y(1)|D, \boldsymbol{X}] = E[Y(1)|\boldsymbol{X}] \end{split}\]

が成立する。

そこから共変量について期待値をとればATEが推定できる

\[ E_{\boldsymbol{X}} [ E[Y(1) - Y(0)|\boldsymbol{X}] ] = E[Y(1) - Y(0)] \]

SUTVA条件#

個体\(i\)の潜在的結果\(Y_i(1), Y_i(0)\)が次の2つの条件を満たすとき、SUTVA(stable unit treatment value assumption)条件を満たすという(Rubin 1980)。

  1. 個体\(i\)の潜在的結果は、他の個体が受ける処置の値に依存しない

  2. 個体\(i\)に対する処置は1通りに定まる

条件1について#

条件1は相互干渉がない(no interference)という言い方もされる(Cox 1958)。

相互干渉がある場合、個体\(i\)の潜在的結果は個体\(i\)の処置\(D_i\)だけでは定まらず、\(Y_i(D_1, \cdots, D_n)\)のように書く必要が出てきてかなり複雑になる。 そのため、条件1は潜在的結果をシンプルに扱うための条件となる。

しかし現実には相互干渉が発生しうる。例えば労働者への教育プログラムの効果を推定する際には、他にもそのプログラムを受けて技能を向上させた労働者が多く現れる場合、労働市場における希少価値は低下し、結果として個体\(i\)の潜在的結果に影響を与えると考えられる。

条件2について#

条件2は処置の内容を明確にすることを要請している。

例えば「ダイエットをする」という処置では、具体的に何をしたのかが人によって大きく異なる可能性がある。

参考文献#

講義ノート#