Meta Learner

Meta Learner#

Conditional Average Treatment Effect (heterogeneous treatment effects)

CATE = τ (x) := E [Y^{(1)} - Y^{(0)} ∣ X = x]

の推定のため、複数の予測モデルを構築する手法

論文： Künzel, et al. (2019). Metalearners for estimating heterogeneous treatment effects using machine learning.

記法について

個体 $i$
共変量（covariates）または特徴量（features）： $X_{i} \in X \subset R^{m}$
潜在的結果（potential outcomes） $Y_{i}^{(0)}, Y_{i}^{(1)} \in R$
処置割当（assignment） $D_{i} \in {0, 1}$
個体 $i$ のデータ： $(X_{i}, D_{i}, Y_{i}^{(0)}, Y_{i}^{(1)})$
個体 $i$ の観測データ： $(X_{i}, D_{i}, Y_{i})$
観測された結果： $Y_{i} = D_{i} Y_{i}^{(1)} + (1 - D_{i}) Y_{i}^{(0)}$
処置の割当確率（propensity）: $π (x) = P (D_{i} = 1 ∣ X_{i} = x)$

CATEの識別可能性#

もしoverlap条件とunconfoundednessの仮定が満たされる場合、Potential Outcome Regressions

μ_{d} (x) = E [Y^{(d)} ∣ X = x] = E [Y ∣ X = x, D = d]

によりCATEが識別可能

CATEの推定の2つのアプローチ#

2つに大別される

Indirect approach#

\hat{τ} (x) = \hat{E} [Y ∣ X = x, D = 1] - \hat{E} [Y ∣ X = x, D = 0]

Direct approach#

CATEを直接推定する。

観測不可能な $Y^{(1)} - Y^{(0)}$ の代わりに pseudo-outcomes $Y_{η}$ を構築して $X$ に回帰する。

\hat{τ} (x) = \hat{E} [Y_{\hat{η}} ∣ X = x] (with E [Y_{η} ∣ X = x] = E [Y^{(1)} - Y^{(0)} ∣ X = x])

$η$ は局外母数（nuisance parameters）で、傾向スコア（propensity score） $π (x) = P (D_{i} = 1 ∣ X_{i} = x)$ か回帰面（regression surface） $μ_{d} (x) = E [Y^{(d)} ∣ X = x]$ が用いられる。

Indirect Approach#

T-learner#

T-learner

\hat{τ} (x) = {\hat{μ}}_{1} (x) - {\hat{μ}}_{0} (x)

回帰問題が解ける任意のアルゴリズムを2つ使い（two learners）、以下の3つのステップでCATEを推定する。

対照群の観測データをもとに、control response function $μ_{0} (x)$ を推定する

μ_{0} (x) = E [Y^{(0)} ∣ X = x]

同様に処置群でも treatment response functionを推定する。

μ_{1} (x) = E [Y^{(1)} ∣ X = x]

両者の差分をとり、T-learnerの完成

\hat{τ} (x) = {\hat{μ}}_{1} (x) - {\hat{μ}}_{0} (x)

S-learner#

S-learner

\hat{τ} (x) = \hat{μ} (x, 1) - \hat{μ} (x, 0)

処置の有無を表す変数 $Z$ を1つの回帰モデルの特徴量に含める（single learner）

μ (x, z) := E [Y^{o b s} ∣ X = x, Z = z]

を作り、予測値の差分

\hat{τ} (x) = \hat{μ} (x, 1) - \hat{μ} (x, 0)

によってCATEを推定する

X-learners#

response functions $μ_{0} (x), μ_{1} (x)$ を推定する

\begin{array}{r} μ_{0} (x) = E [Y (0) ∣ X = x] \\ μ_{1} (x) = E [Y (1) ∣ X = x] \end{array}

対照群、処置群それぞれにおける個人の処置効果を実測値と予測値の差分で推定する（ imputed treatment effects）

\begin{array}{r} {\tilde{Δ}}_{i}^{(1)} := Y_{i}^{(1)} - {\hat{μ}}_{0} (X_{i}^{(1)}) \\ {\tilde{Δ}}_{i}^{(0)} := {\hat{μ}}_{1} (X_{i}^{(1)}) - Y_{i}^{(0)} \end{array}

を使って、

\begin{array}{r} τ_{1} (x) = E [{\tilde{Δ}}_{i}^{(1)} ∣ X = x] \\ τ_{0} (x) = E [{\tilde{Δ}}_{i}^{(0)} ∣ X = x] \end{array}

と推定する。

もしうまく推定できて ${\hat{μ}}_{0} = μ_{0}, {\hat{μ}}_{1} = μ_{1}$ であれば、

τ (x) = E [{\tilde{Δ}}_{i}^{(1)} ∣ X = x] = E [{\tilde{Δ}}_{i}^{(0)} ∣ X = x]

（実測値のほうを $Δ := Y (1) - Y (0)$ とすると、 $τ (x) = E [Δ ∣ X = x]$ のため）

重み関数 $g \in [0, 1]$ を使って $τ_{1} (x), τ_{0} (x)$ を重み付き和にしてCATEを推定する

\hat{τ} (x) = g (x) {\hat{τ}}_{0} (x) + (1 - g (x)) {\hat{τ}}_{1} (x)

$g$ はpropensity scoreが経験的によいらしい

Indirect Approachの欠点#

1. T-learner が構造をうまく表現できない場合がある#

$τ (x)$ は $μ_{d} (x)$ よりずっと単純な関数の可能性があり、その場合にうまく推定できないことがある。

Kennedy (2020)は、処置効果が同質（どの $x$ の値のもとでもATEが一定）のデータセットに対してT-learnerが高い異質性を推定（異なる $x$ に対して異なるATEを予測）したことを報告した。

2. S-learner が $D_{i}$ の変動を捉えないことがある#

処置効果より大きな影響をもつ共変量があったとき、モデルは処置効果の変化を重視しないかもしれない（例：決定木で $D$ が分岐に使われない）

3. T-learner, S-learnerどちらも複雑なCATEをコントロールできない#

$\hat{τ} (x)$ は明示的にモデリングされないため、その複雑さを制御できない

Direct Approach#

RA-learner#

RA: regression adjustment

RA-learner

{\tilde{Y}}_{R A, \hat{η}} = D \underset{TE Proxy}{\underset{⏟}{(Y - {\hat{μ}}_{0} (X))}} + (1 - D) \underset{TE Proxy}{\underset{⏟}{({\hat{μ}}_{1} (X) - Y)}}

条件付き期待値をとると、

E [{\tilde{Y}}_{R A, \hat{η}} ∣ X = x] = π (x) [μ_{1} (x) - {\hat{μ}}_{0} (x)] + [1 - π (x)] [{\hat{μ}}_{1} (x) - μ_{0} (x)]

もし ${\hat{μ}}_{d} (x) = μ_{d} (x)$ なら

\begin{array}{r} \begin{aligned} = π (x) [μ_{1} (x) - μ_{0} (x)] + [1 - π (x)] [μ_{1} (x) - μ_{0} (x)] \\ = μ_{1} (x) - μ_{0} (x) \\ = τ (x) \end{aligned} \end{array}

PW-learner#

逆確率重み付け（IPW）推定量

PW-learner

{\tilde{Y}}_{P W, \hat{η}} = (\frac{D}{\hat{π} (X)} - \frac{1 - D}{1 - \hat{π} (X)}) Y

↑Horvitz-Thompson transformation

条件付き期待値をとると、

E [{\tilde{Y}}_{P W, \hat{η}} ∣ X = x] = \frac{π (x)}{\hat{π} (x)} μ_{1} (x) - \frac{1 - π (x)}{1 - \hat{π} (x)} μ_{0} (x)

もし $\hat{π} (x) = π (x)$ なら、

= μ_{1} (x) - μ_{0} (x) = τ (x)

DR-learner#

Doubly Robust推定量、あるいは Augmented Inverse Propensity-weighted (AIPW) 推定量と呼ばれるもの

DR-learner

{\tilde{Y}}_{D R, \hat{η}} = (\frac{D}{\hat{π} (X)} - \frac{(1 - W)}{1 - \hat{π} (X)}) Y + [(1 - \frac{D}{\hat{π} (X)}) {\hat{μ}}_{1} (x) - (1 - \frac{1 - D}{1 - \hat{π} (X)}) {\hat{μ}}_{0} (X)]

条件付き期待値をとると

E [{\tilde{Y}}_{D R, \hat{η}} ∣ X = x] = \frac{π (x)}{\hat{π} (x)} μ_{1} (x) - \frac{1 - π (x)}{1 - \hat{π} (x)} μ_{0} (x) + [(1 - \frac{π (x)}{\hat{π} (x)}) {\hat{μ}}_{1} (x) - (1 - \frac{1 - π (x)}{1 - \hat{π} (x)}) {\hat{μ}}_{0} (x)]

もし $\hat{π} (x) = π (x)$ なら

= μ_{1} (x) - μ_{0} (x) + 0 \times {\hat{μ}}_{1} (x) - 0 \times {\hat{μ}}_{0} (x) = τ (x)

もし ${\hat{μ}}_{d} (x) = μ_{d} (x)$ なら

= (1 - \frac{π (x)}{\hat{π} (x)} + \frac{π (x)}{\hat{π} (x)}) μ_{1} (x) - (1 - \frac{1 - π (x)}{1 - \hat{π} (x)} + \frac{1 - π (x)}{1 - \hat{π} (x)}) μ_{0} (x) = τ (x)

Causal Forestsとのつながり#

An estimator closely related to T–RF and S–RF is Causal Forests, because all three of these estimators can be defined as

$\hat{τ} (x) = \hat{μ} (x, w = 1) - \hat{μ} (x, w = 0)$

where $\hat{μ} (x, w)$ is a form of random forest with different constraints on the split on the treatment assignment (Appendix of Künzel, et al. (2019))

DA-Learner#

Lechner, T. (2018). Domain Adaptation Under Causal Assumptions (Doctoral dissertation, Eberhard Karls Universität Tübingen Tübingen).

R-Leaner#

実装#

CATENetsパッケージはニューラルネットワークベースのmeta-learnerを簡単に実行できる

AliciaCurth/CATENets: Sklearn-style implementations of Neural Network-based Conditional Average Treatment Effect (CATE) Estimators.

応用例#

Case Study #2_ Targeting Optimization_ Bidder at Uber 0812.pdf - Google ドライブ

参考文献#

Künzel, et al. (2019). Metalearners for estimating heterogeneous treatment effects using machine learning.
機械学習で因果推論~Meta-LearnerとEconML~
ITE inference - meta-learners for CATE estimation - YouTube
- よくまとまっている講義