BART: Bayesian additive regression trees#
BART#
[0806.3286] BART: Bayesian additive regression trees
BARTはベイジアンなGBDTのような手法で、予測値の事後分布を得られる
問題設定#
連続変数の目的変数\(y\)が、特徴ベクトル\(x = (x_1, \dots, x_p)\) と 未知の関数\(f(x)\) とで
という関係性になっているとする。この\(f(x)\)を推定したい。
モデル#
二分木 \(T\) が \(b\) 個の終端ノードを持っているとし、そのパラメータ集合を \(M = \{ \mu_1, \dots, \mu_b \}\) とする。入力\(x\)に対し出力\(\mu_i \in M\)を割り振る写像を\(g(x \mid T, M)\)とすると、木の加法モデルは次のように表される。
事前分布による正則化#
\(T_j\)の事前分布#
二分木 \(T_j\)の事前分布\(p(T_j)\)は、深さ\(d\)が終端でないとき、
で与えられる。
\(\mu_{ij}\mid T_j\) の事前分布#
終端ノードのパラメータ\(\mu_{ij}\)について、
とする。ここで\(k\)はハイパーパラメータで、cross validationなどで決める。\(m\)は木の本数なので、多数の木を使う複雑なモデルほど\(\sigma_\mu\)は小さくなり、出力がゼロになる確率が上がる
\(\sigma\)の事前分布#
逆カイ二乗分布に従うとする
パラメータ推定#
事後分布 \(p((T_1, M_1), \ldots,(T_m, M_m), \sigma \mid y)\) の推定には Bayesian backfitting MCMC (Hastie and Tibshirani, 2000) を使う。これは残差に対して適応して段階的に加法モデルを作っていくアプローチで、ようは勾配ブースティングのベイズ版である。
\(T_{\not \ j}\)を \(T_j\)以外の\(m-1\)個の木のパラメータ集合とし、同様に\(M_{\not \ j}\) も定義する。
\(j=1,\dots, m\)について、\(j\)番目の木は
とサンプリングする。この\(T_{(j)}, M_{(j)}, \sigma, y\)による条件付けは、\(j\)番目の木を除いた残差
を使って
と実装できる。
\(\sigma\)は完全条件からサンプリングする
BARTによる因果推論#
BARTを使って推定した1つの予測モデル \(f(x, z)\) を使って、処置変数\(z\)だけ変えて差分をとってCATEを推定するというもの