分位点回帰

分位点回帰#

分位点 $τ$ における条件付分位関数を

Q_{τ} (y_{i} | X_{i}) = F_{y}^{- 1} (τ | X_{i})

と表す。ここで $F_{y}^{- 1} (τ | X_{i})$ は $y$ において $X_{i}$ に条件づけられた $y_{i}$ の分布関数である（ $F_{y}^{- 1} (τ | X_{i}) = inf {y : F_{y} (y | X_{i}) \geq τ}$ ）。

例えば $τ = 0.1$ のとき、 $Q_{τ} (y_{i} | X_{i})$ は $y_{i}$ の下位10分位である。

標準的な回帰モデルは二乗誤差 $(y_{i} - m (X_{i}))^{2}$ の和や期待値を最小化するようにモデル $m (X_{i})$ を学習して条件付き期待値 $E (y_{i} | X_{i})$ を予測する

E (y_{i} | X_{i}) = \underset{m (X_{i})}{a r g m i n} E [(y_{i} - m (X_{i}))^{2}]

分位点回帰 （quantile regression）モデルはpinball loss $ρ_{τ} (y_{i} - q (X_{i}))$ の和や期待値を最小化するようにモデル $q (X_{i})$ を学習させ、条件付き分位関数 $Q_{τ} (y_{i} | X_{i}) = F_{y}^{- 1} (τ | X_{i})$ を予測する

Q_{τ} (y_{i} | X_{i}) = \underset{q (X_{i})}{a r g m i n} E [ρ_{τ} (y_{i} - q (X_{i}))]

pinball lossは $τ$ -tiled absolute value function や検定関数（check function）とも呼ばれる（グラフを描くとチェックマークに似てるため）

ρ_{τ} (x) = (τ - 1 (x \leq 0)) x

あるいは

\begin{array}{r} ρ_{τ} (x) = {\begin{cases} (τ - 1) x & if x \leq 0 \\ τ x & if x > 0 \end{cases} \end{array}

と書かれる

../_images/54794bf6727a7695472b5e0372e6c7d57d1fbc5662994c2bf4d08f44988701fd.png

なお、pinball lossは $τ = 0.5$ のとき

\begin{array}{r} \begin{aligned} ρ_{0.5} (x) & = {\begin{cases} - 0.5 x & if x \leq 0 \\ 0.5 x & if x > 0 \end{cases} \\ = \frac{1}{2} | x | \end{aligned} \end{array}

と、絶対誤差と比例する形になる。

絶対誤差の和を目的関数にとった線形モデルは統計学においてleast absolute deviations (LAD) と呼ばれ、その解は条件付き中央値になる

median (y_{i} | X_{i}) = Q_{0.5} (y_{i} | X_{i}) = \underset{q (X_{i})}{a r g m i n} E [ρ_{0.5} (y_{i} - q (X_{i}))]

../_images/0963fe9b4ff046432ea5c0e5617a427b32cd329c48c64c4b718f46777d05f849.png

モデルの評価#

D2 pinball score#

$D^{2}$ は $R^{2}$ の一般化

D^{2} (y, \hat{y}) = 1 - \frac{dev (y, \hat{y})}{dev (y, y_{null})}

ここで $y_{null}$ は切片のみのモデルの最適解（例：二乗誤差なら $y$ の平均値、絶対誤差なら $y$ の中央値、pinball lossなら $y$ の指定されたquantile）

この $D^{2}$ に

dev (y, \hat{y}) = pinball (y, \hat{y})

を代入したものが $D^{2}$ pinball score

interval score#

[2011.09588] Beyond Pinball Loss: Quantile Methods for Calibrated Uncertainty Quantification