分位点回帰

分位点回帰#

分位点 $τ$ における条件付分位関数を

Q_{τ} (y_{i} | X_{i}) = F_{y}^{- 1} (τ | X_{i})

と表す。ここで $F_{y}^{- 1} (τ | X_{i})$ は $y$ において $X_{i}$ に条件づけられた $y_{i}$ の分布関数である（ $F_{y}^{- 1} (τ | X_{i}) = inf {y : F_{y} (y | X_{i}) \geq τ}$ ）。

例えば $τ = 0.1$ のとき、 $Q_{τ} (y_{i} | X_{i})$ は $y_{i}$ の下位10分位である。

標準的な回帰モデルは二乗誤差 $(y_{i} - m (X_{i}))^{2}$ の和や期待値を最小化するようにモデル $m (X_{i})$ を学習して条件付き期待値 $E (y_{i} | X_{i})$ を予測する

E (y_{i} | X_{i}) = \underset{m (X_{i})}{a r g m i n} E [(y_{i} - m (X_{i}))^{2}]

分位点回帰 （quantile regression）モデルはpinball loss $ρ_{τ} (y_{i} - q (X_{i}))$ の和や期待値を最小化するようにモデル $q (X_{i})$ を学習させ、条件付き分位関数 $Q_{τ} (y_{i} | X_{i}) = F_{y}^{- 1} (τ | X_{i})$ を予測する

Q_{τ} (y_{i} | X_{i}) = \underset{q (X_{i})}{a r g m i n} E [ρ_{τ} (y_{i} - q (X_{i}))]

pinball lossは $τ$ -tiled absolute value function や検定関数（check function）とも呼ばれる（グラフを描くとチェックマークに似てるため）

ρ_{τ} (x) = (τ - 1 (x \leq 0)) x

あるいは

\begin{array}{r} ρ_{τ} (x) = {\begin{cases} (τ - 1) x & if x \leq 0 \\ τ x & if x > 0 \end{cases} \end{array}

あるいは

ρ_{τ} (x) = τ max (x, 0) + (τ - 1) min (- x, 0)

と書かれる

../../_images/54794bf6727a7695472b5e0372e6c7d57d1fbc5662994c2bf4d08f44988701fd.png

なお、pinball lossは $τ = 0.5$ のとき

\begin{array}{r} \begin{aligned} ρ_{0.5} (x) & = {\begin{cases} - 0.5 x & if x \leq 0 \\ 0.5 x & if x > 0 \end{cases} \\ = \frac{1}{2} | x | \end{aligned} \end{array}

と、絶対誤差と比例する形になる。

絶対誤差の和を目的関数にとった線形モデルは統計学においてleast absolute deviations (LAD) と呼ばれ、その解は条件付き中央値になる

median (y_{i} | X_{i}) = Q_{0.5} (y_{i} | X_{i}) = \underset{q (X_{i})}{a r g m i n} E [ρ_{0.5} (y_{i} - q (X_{i}))]

../../_images/6acebc68f03af4871b3d4665fce396c7b7befe0a5afff3a753bb7dec050336fc.png

分位点回帰モデルの実践#

LightGBMでのquantile regression#

目的関数をbinball lossにすればいいだけなので他のアルゴリズムでも実行できる

/usr/local/lib/python3.10/site-packages/sklearn/utils/validation.py:2739: UserWarning: X does not have valid feature names, but LGBMRegressor was fitted with feature names
  warnings.warn(
/usr/local/lib/python3.10/site-packages/sklearn/utils/validation.py:2739: UserWarning: X does not have valid feature names, but LGBMRegressor was fitted with feature names
  warnings.warn(

../../_images/ff4fdfbec3d4ca6fb70c69fd903a6718a46202d69b00ad5b4a7ff2523fde8164.png

from sklearn.metrics import d2_pinball_score, make_scorer
d2_pinball_score_09 = make_scorer(d2_pinball_score, alpha=0.9)
d2_pinball_score_09(model, X, y)

/usr/local/lib/python3.10/site-packages/sklearn/utils/validation.py:2739: UserWarning: X does not have valid feature names, but LGBMRegressor was fitted with feature names
  warnings.warn(

0.48475107952573926

分位点回帰

Contents

分位点回帰#

分位点回帰モデルの実践#

LightGBMでのquantile regression#