統計的学習理論

統計的学習理論#

理論っぽいトピックを並べる

SVM (Vapnik, 1998, Cortes and Vapnik, 1995): VC 次元
AdaBoost (Freund and Schapire, 1995): 弱学習器による学習可能性
- 弱学習器の集まりで任意の精度の学習器を作れる（Boosting仮説） → AdaBoost
Lasso (Tibshirani, 1996)
- 正則化は誤差のうちバリアンスを下げる技術（バイアスは増える）
AIC (Akaike, 1974)
Dirichlet process (Ferguson, 1973): 確率論，測度論

経験分布関数は真の分布関数に収束する。

汎化誤差の定義（ベイズ誤差を引くかどうか）や、バイアスと呼ぶかモデル誤差と呼ぶかなどの名称の違いでややバリエーションがある

バイアス・バリアンス分解

目的変数 $Y$ が回帰関数 $f (X)$ と誤差 $ε$ によって分解できる、すなわち $Y = f (X) + ε$ であるとする。ここで $E (ε) = 0, Var (ε) = σ_{ε}^{2}$ である。

入力点 $X = x_{0}$ における学習した回帰関数 $\hat{f} (X)$ の二乗誤差の期待値は、 削減不能な誤差 (irreducible error) 、 バイアス（Bias） の二乗、 バリアンス（Variance） に分解できる。

\begin{array}{r} \begin{aligned} Err (x_{0}) & = E [{(Y - \hat{f} (x_{0}))}^{2} ∣ X = x_{0}] \\ = σ_{ε}^{2} + {[E \hat{f} (x_{0}) - f (x_{0})]}^{2} + E {[\hat{f} (x_{0}) - E \hat{f} (x_{0})]}^{2} \\ = σ_{ε}^{2} + {Bias}^{2} (\hat{f} (x_{0})) + Var (\hat{f} (x_{0})) \\ = Irreducible Error + {Bias}^{2} + Variance \end{aligned} \end{array}

ベイズ誤差（=削減不能な誤差 irreducible error） $inf_{f : 可測関数} L (f)$ を訓練済みモデルの誤差 $L (\hat{f})$ から引いたものを汎化誤差とする定義もある。こちらだとirreducible errorの項は残らない。

バイアス・バリアンス分解(2)

仮説集合を $F := {f : X \to R}$ 、モデルを $f \in F$ とおく。訓練データにより訓練済みのモデルを $\hat{f}$ とおく。期待誤差（真の誤差）を $L (f) := E_{(X, Y)} [ℓ (Y, f (X))]$ と定義する。

このとき、汎化誤差は次のように分解される

\begin{array}{r} \begin{aligned} 汎化誤差 & = L (\hat{f}) - inf_{f : 可測関数} L (f) \\ = \underset{推 定 誤 差 V a r i a n c e}{\underset{⏟}{L (\hat{f}) - inf_{f \in F} L (f)}} + \underset{モ デ ル 誤 差 ・ 近 似 誤 差 ・ B i a s}{\underset{⏟}{inf_{f \in F} L (f) - inf_{f : 可測関数} L (f)}} \end{aligned} \end{array}

推定誤差はVariance、モデル誤差は近似誤差やBiasとも呼ばれる。

言葉で説明すると、

訓練済みモデルの期待誤差 $L (\hat{f})$ と、仮説集合の中で最小の誤差 $inf_{f \in F} L (f)$ との差が推定誤差（Variance）
仮説集合の中で最小の誤差 $inf_{f \in F} L (f)$ と削減不能な誤差 $inf_{f : 可測関数} L (f)$ の差がモデル誤差（Bias）

推定誤差とモデル誤差にはトレードオフがある。仮説集合が広ければ推定誤差が大きくなる一方でモデル誤差は小さくなり、仮説集合が小さければ推定誤差が小さくなるがモデル誤差が大きくなる。

（出所：統計的学習の基礎）