Causal Tree#
Causal TreeはCATE推定に使えるよう改良された決定木。
ただし、観察研究データに使用するためには選択バイアスを除去する必要があり、Atheyらによって傾向スコアを用いた改良手法Causal Tree-Transformed Outcome(CT-TO)が提案されている
前提 / Notation#
\(Y_{a=1}, Y_{a=0} \in \mathbb{R}\) :潜在結果変数
\(X_j\): \(p\)次元の pre-treatment 共変量( \(j=1:p\) )
\(A=\{0,1\}\) :処置変数
\(\pi(x)=\operatorname{Pr}(A=1 \mid X=x)\) :傾向スコア
Consistency: \(Y=A Y_{a=1}+(1-A) Y_{a=0}\)
Unconfoundedness: \(A \perp Y_a \mid X \text { for } a=0,1\)
Posititvity: \(0<\pi(x)<1\)
Average Treatment Effect (ATE): \(\theta^{A T E}=\mathrm{E}\left[Y_{a=1}-Y_{a=0}\right]\)
Heterogeneous Treatment Effect (HTE): \(\theta^{H T E}(x)=\mathrm{E}\left[Y_{a=1}-Y_{a=0} \mid X=x\right]\)
Honest#
Causal Treesはrecursive partitioningを用いてHeterogeneous Treatment Effectを推定する手法。
honest性という概念がcausal forestsやGeneralized Random Forestの証明において重要な役割を果たす。
またhonest性を満たすTreeはCARTと比較して過学習を起こしにくいという性質もある。
「木の分割(partitioning)をするために用いるサンプル」と「TreeのLeafごとの推定量の計算に用いるサンプル」に別々のサンプルを用いることで、partition \(\Pi\) と 推定量\(\hat{\mu}\) が独立になったTree を honest なTreeであるという
honestな木はCARTと異なる目的関数をもつ#
honestな木はpartition \(\Pi\)のもとで estimation sample \(\mathcal{S}^{e s t}\) を用いて推定された条件付き平均\(\hat{\mu}\left(X_i ; \mathcal{S}^{e s t}, \Pi\right)\)とテストデータ\(\mathcal{S}^{t e}\)の平均二乗誤差
の期待値をとったものを最小化する。
一方で一般的なCARTでは、訓練サンプル \(\mathcal{S}^{\text{te}}\) を使ってpartition \(\Pi\)と推定量\(\hat{\mu}\)を作って誤差を最小化する
honestな木は過学習しにくい#
MSEの期待値を取ったものをEMSE
とする。honestな木はこれを目的関数とする。
負のEMSEを展開すると
となる。
これに対して訓練サンプル\(\mathcal{S}^{t r}\)から不偏推定量を構成すると
となる。ここで\(S_{\mathcal{S}^{t r}}^2(\ell)\)は\(\ell \in \Pi\)におけるleaf内分散を意味する。
一方で、CARTにおいてはpenalty項がなく、分割を行えば行うほど\(-\operatorname{MSE}\)が改善するため、枝刈りが必要になる。
leaf内分散はleaf内のサンプル数が多いうちは小さい(=CARTとhonest treeは似た挙動になる)が、leaf内サンプルが小さくなると高くなりやすい(分割を停止する方向に動く)。
HTEの推定#
問題:データ \(\left(Y_i, X_i, W_i\right) \in \mathbb{R} \times \mathbb{R}^\rho \times\{0,1\}\) が観測されたもとで、 \(\theta^{H T E}(x)=\mathrm{E}\left[Y_{a=1}-Y_{a=0} \mid X=x\right]\) を推定する問題
Causal Treeヘの批判#
理論解析を行った結果、推定量の収束レートが遅く、あまりいい推定量じゃなさそうであることがわかった
Double Sample Trees#
参考文献#
解説記事