学習アルゴリズムの評価#
損失関数#
損失関数を
例えば、分類問題での代表的な損失関数は 0-1損失 (0-1 loss)
また回帰問題で使われる代表的な損失関数は 二乗損失 (squared loss)
予測損失#
仮説
と定義する。
経験損失#
経験損失(empirical loss) を、観測値に基づく損失の平均値
と定義する。
経験損失は別の表現もできる。データ数が
と表すことができる。
経験損失は予測損失の不偏推定量#
データ
となる。したがって経験損失は予測損失の不偏推定量である。
経験損失は予測損失の一致推定量#
観測データが独立に同一の分布
が成り立つ。ここで
標準的な問題設定ではテストデータと訓練データの分布は同一だが、実応用においては両者の分布が異なることもある。
例えば特徴量の分布が異なるという 共変量シフト(covariate shift) では、分布の違いを比として誤差関数に重みをつける推定方法がある。
またログデータを用いた推薦システムの学習(Off-Policy Learning)においても、ログデータ(訓練データ)が「従来の推薦モデルのもとでの観測データ」であり、実運用時のデータ(テストデータ)とは分布が異なるという似た問題がある。
参考:
ベイズ規則#
定義
損失関数
を損失関数
ベイズ規則が
条件付き期待値
を用いると
であるため、
簡単のため
を最小にする
0-1損失のベイズ規則#
損失関数として0-1損失
予測損失
と変形できるので、入力
となる。
また、0-1損失の期待値は誤って予測した割合(誤答率)に相当するため、1-正答率
の形に整理できる。
そのため、
が予測誤差を最小とする。これが0-1損失におけるベイズ規則になる。
# TODO: 確率の話も含める。PRML
二乗損失のベイズ規則#
損失関数として二乗損失
となる。よって
条件付き期待値に戻って考えると、ベイズ規則は
によって与えられる。
第1項は
第2項は最終的に
となり0になる。
第3項の
ベイズ誤差
となる。条件付き分散
絶対誤差のベイズ規則#
損失関数
になる
絶対誤差の最適解
誤差関数
絶対値の中身の符号で場合分けすると
予測損失を微分するとそれぞれの項は
よって
となる。
となる点が予測損失を極小化することがわかる。これは
である。これは累積分布関数
定積分の定義
より、この導関数は
アルゴリズムの評価#
観測したサンプル
期待予測損失#
学習された仮説
統計的一致性#
別の評価尺度として、
が成り立つとし、
ベイズ誤差に近い予測損失を達成する仮説が得られる場合、統計的一致性をもつ学習アルゴリズムと呼ばれる
定義(統計的一致性)
任意の分布
が成り立つとき、学習アルゴリズム
有限な仮説集合を用いた学習#
仮説集合が有限集合の場合の予測損失の評価について。2値判別問題で考え、入力空間
を用いて学習を行う(なお、ベイズ規則が
を出力する学習アルゴリズムを考える。また、
仮説
:ベイズ規則 : の中で予測誤差を最小にする仮説 :仮説集合とサンプルのもとで経験損失を最小化する仮説
の関係は、定義より
となる。
差
補題(ヘフディングの不等式 Hoeffding’s inequality)
確率変数
が成り立つ。
となり、
が成り立つ。よって
となる。
仮説集合
となるため、
となり、データ数
となる。このオーダーは最悪評価であり、問題設定によってはより速い収束レートが達成できる場合もある。
近似誤差と推定誤差のトレードオフ#
一般には仮説集合
となる。近似誤差(approximation error)と推定誤差(estimation error)を次のように定義する
近似誤差 :
推定誤差 :
このとき、
となり、仮説集合を適切に設定することで
近似誤差
を満たすとする。定義より近似誤差と推定誤差は
となる。仮説集合が大きいほど近似誤差は小さくなるが、推定誤差は大きくなる。 なので最適な仮説集合を選ぶには、これらの和を小さくする仮説集合、すなわち
とするときの
適切な仮説集合はデータの分布やデータ数などによって変わる。推定誤差は
二乗損失のバイアス・バリアンス分解#
入力変数
から成るとする。
データ点
を考える。二乗損失は
と展開できる。
これに対して
第1項
第2項
第3項 は
第4項は
第5項は
最後の項は
となる。よって期待二乗損失は以下のように分解される
参考:
正則化#
正則化 (regularization) は適切な大きさの仮説集合を学習するための代表的な方法。小さな仮説集合で対応できるデータに対して、大きな仮説集合から仮説を選ぶことに対してペナルティを掛ける。
複数の仮説集合
を満たすような関数
仮説の探索範囲は経験損失
正則化パラメータ
「データ数が十分大きいときは、大きな仮説集合を用いても予測誤差があまり大きくならない」という性質があるため、正則化パラメータをデータ数に依存するように定義して適切なオーダーで
しかし実用上は交差検証法(Cross-Validation)を用いて決める方法が有用である。