勾配ブースティング決定木#
Gradient Boosting Machine#
複数の関数に重みをかけて足し合わせた関数
の形で予測モデルを構築することを考える。ここで
このモデルは
前向き段階的加法モデリング(forward stagewise additive modeling)
で初期化 から までについて、パラメータを推定する:
新たなモデルを足す:
これを前向き段階的加法モデリング(forward stagewise additive modeling)という。ブースティングはこの方法でアンサンブル学習を行う。
誤差関数が二乗誤差
となり、
最適化の観点からの説明#
勾配降下法#
数理最適化において関数の最小化問題
を解く方法のひとつに勾配降下法(gradient descent method)あるいは最急降下法(steepest descent method)と呼ばれるものがある。これは目的関数の微分のベクトルである勾配
を用いて
という値の更新を何度も繰り返して最適化を行っていく。ここで
最終的に
となり、ブースティングにより得られる予測モデル
と同様に重み付き和の形になる。
ブースティング#
ブースティングは勾配降下法を機械学習で行っていると捉えることができる。
機械学習においては予測値
を解きたいため、勾配は誤差関数の予測モデルによる微分
二乗誤差
前向き段階的加法モデルの節で「二乗誤差の場合は残差を近似するように学習している」と述べた。
これにより、学習されるモデル
正則化つきGBDT#
勾配ブースティング決定木のモデルは次のように表される
ここで
は予測器 は回帰木の空間 は入力データ を木の各葉のインデックスに割り振る写像。 は各木の葉の数 は葉の重み(weights)と呼ばれ、予測に使われた葉の出力値。予測値は の和となるので予測値のベースでもある
学習の際は正則化付き誤差関数
を最小化する。ここで
学習は加法的に行うため
テイラー展開による近似#
この誤差を二次近似したものを使うことで計算量を削減することもできることが知られている(Friedman et al., 2000)
ここで
定数項を省略すると
葉
固定した木の構造
となる。
導出
葉
L1の場合
L1の場合
最適な重み
となり、これ木の構造