BART: Bayesian additive regression trees#

BART#

[0806.3286] BART: Bayesian additive regression trees

BARTはベイジアンなGBDTのような手法で、予測値の事後分布を得られる

問題設定#

連続変数の目的変数\(y\)が、特徴ベクトル\(x = (x_1, \dots, x_p)\) と 未知の関数\(f(x)\) とで

\[ y = f(x) + \varepsilon, \quad \varepsilon \sim N(0, \sigma^2) \]

という関係性になっているとする。この\(f(x)\)を推定したい。

モデル#

二分木 \(T\)\(b\) 個の終端ノードを持っているとし、そのパラメータ集合を \(M = \{ \mu_1, \dots, \mu_b \}\) とする。入力\(x\)に対し出力\(\mu_i \in M\)を割り振る写像を\(g(x \mid T, M)\)とすると、木の加法モデルは次のように表される。

\[ y = \sum_{j=1}^m g(x \mid T_j, M_j) + \varepsilon, \quad \varepsilon \sim N(0, \sigma^2) \]

事前分布による正則化#

\(T_j\)の事前分布#

二分木 \(T_j\)の事前分布\(p(T_j)\)は、深さ\(d\)が終端でないとき、

\[ \alpha(1+d)^{-\beta}, \quad \alpha \in(0,1), \beta \in[0, \infty) \]

で与えられる。

\(\mu_{ij}\mid T_j\) の事前分布#

終端ノードのパラメータ\(\mu_{ij}\)について、

\[ \mu_{i j} \sim N\left(0, \sigma_\mu^2\right) \quad \text { where } \sigma_\mu=\frac{0.5}{k \sqrt{m}} \]

とする。ここで\(k\)はハイパーパラメータで、cross validationなどで決める。\(m\)は木の本数なので、多数の木を使う複雑なモデルほど\(\sigma_\mu\)は小さくなり、出力がゼロになる確率が上がる

\(\sigma\)の事前分布#

逆カイ二乗分布に従うとする

\[ \sigma^2 \sim \frac{\nu \lambda}{ \chi_\nu^2} \]

パラメータ推定#

事後分布 \(p((T_1, M_1), \ldots,(T_m, M_m), \sigma \mid y)\) の推定には Bayesian backfitting MCMC (Hastie and Tibshirani, 2000) を使う。これは残差に対して適応して段階的に加法モデルを作っていくアプローチで、ようは勾配ブースティングのベイズ版である。

\(T_{\not \ j}\)\(T_j\)以外の\(m-1\)個の木のパラメータ集合とし、同様に\(M_{\not \ j}\) も定義する。

\(j=1,\dots, m\)について、\(j\)番目の木は

\[ (T_j, M_j) \mid T_{(j)}, M_{(j)}, \sigma, y \]

とサンプリングする。この\(T_{(j)}, M_{(j)}, \sigma, y\)による条件付けは、\(j\)番目の木を除いた残差

\[ R_j \equiv y-\sum_{k \neq j} g\left(x ; T_k, M_k\right) \]

を使って

\[ (T_j, M_j) \mid R_j, \sigma \]

と実装できる。

\(\sigma\)は完全条件からサンプリングする

\[ \sigma \mid T_1, \ldots, T_m, M_1, \ldots, M_m, y \]

BARTによる因果推論#

Bayesian Nonparametric Modeling for Causal Inference: Journal of Computational and Graphical Statistics: Vol 20, No 1

BARTを使って推定した1つの予測モデル \(f(x, z)\) を使って、処置変数\(z\)だけ変えて差分をとってCATEを推定するというもの

\[ \tau(x) = f(x, 1) - f(x, 0) \]

Bayesian Causal Forest#

[1706.09523] Bayesian regression tree models for causal inference: regularization, confounding, and heterogeneous effects

\[ E\left(Y_i \mid x_i, z_i\right)=\mu\left(x_i, \hat{\pi}\left(x_i\right)\right)+\tau\left(x_i\right) z_i \]

参考#