汎化誤差

汎化誤差#

訓練データ $T = {(x_{i}, y_{i})}_{i = 1}^{n}$ の下で、新しいデータ点 $(X^{0}, Y^{0})$ でのモデル $\hat{f}$ の誤差の期待値をとったもの

GE = E_{X^{0}, Y^{0}} [L (Y^{0}, \hat{f} (X^{0})) | T]

は**真の誤差（true error）あるいは汎化誤差（generatization error）**あるいはextra-sample errorと呼ばれる

訓練セットで汎化誤差の期待値をとった

EE = E_{T} E_{X^{0}, Y^{0}} [L (Y^{0}, \hat{f} (X^{0})) | T]

を**期待誤差（expected error）**という。

期待誤差のほうが統計的に扱いやすい

訓練データで誤差の平均値をとったもの

TE = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, \hat{f} (x_{i}))

を**訓練誤差（training error）あるいは再代入誤り率（resubstitution error）**という。

訓練誤差は汎化誤差以下になることが知られている

はじパタによれば、再代入誤り率 $T E$ と $H o l d O u t E r r o r$ と真の誤差 $G E$ の間には

E_{D_{L}} [T E] \leq G E \leq E_{D_{T}} [H o l d O u t E r r o r]

の関係性があるとされる（ここで $E_{D_{L}} []$ は多数の訓練データで計算して期待値をとったもの、 $E_{D_{T}} []$ は訓練データは1つで多数のテストデータで期待値を摂ったもの）

Conditional Error

Hold out

Cross Validation

Catoni bound

訓練誤差ベースの汎化誤差上界は実験してみると100%近くの意味のない値になることも多い[2012.04115] Generalization bounds for deep learning

テスト用データを使って汎化誤差上界を計算したもの

ノイズ耐性と汎化性能は相関する

そこでノイズ付加汎化誤差上界を計算するアプローチがある