WAIC / WBIC / 渡辺ベイズ理論#
概要#
正則でないモデル(例えばDeep Learningのような複雑なモデル)でも使えるようにAICを一般化したのがWAIC
そのように一般化したベイズが渡辺ベイズ
代数幾何学を利用する
KL情報量#
正則性#
以下3つの条件を満たすとき、正則であるという
の要素 が単一 のヘッセ行列
正則性#
以下2つを満たすとき
平均対数損失関数を最小にするパラメータの集合
について、集合 の要素が の1つだけである のヘッセ行列 が正則(固有値が全て正の値)である
正則でない関数の例#
最適解が複数→凸でない
2回微分できない
import numpy as np
import matplotlib.pyplot as plt
x = np.linspace(-1, 1, 100)
y = x**4
plt.plot(x, y)
[<matplotlib.lines.Line2D at 0x7faefd115090>]

import numpy as np
import matplotlib.pyplot as plt
x = np.linspace(-1, 1, 100)
y = 4*x**3
plt.plot(x, y)
[<matplotlib.lines.Line2D at 0x7faefd1fe9e0>]

import numpy as np
import matplotlib.pyplot as plt
x = np.linspace(-1, 1, 100)
y = 12*x**2
plt.plot(x, y)
[<matplotlib.lines.Line2D at 0x7faefcd8b370>]

正則でない統計モデルの例#
混合正規分布
で最適解が
正則性を仮定すると得られるもの#
ニュートン法の確率収束#
最尤推定のときに使われることが多いニュートン法でヘッセ行列が逆行列を持たず、漸化式が収束しない
漸近正規性#
法則収束:分布関数Fの連続点xで分布関数
事後平均、事後分散#
渡辺ベイズで出てくる大事な量
汎化損失#
汎化損失#
予測分布を負の対数とって期待値とる
$
経験損失#
正則性を仮定しなくても、次のようになる#
WAIC#
WAIC = 経験損失
相対的に有限な分散の範囲内でしかWAICは使えない#
(100問の本7章)
実現可能#
実質的にunique(同質)#
相対的に有限な分散をもつ#
正則でないモデルであってもWAICは使えるが、相対的に有限な分散の範囲内でしかWAICは使えない
正則のとき、 #
正則のとき、漸近正規性から
$
「渡辺ベイズはベイズじゃない」という批判#
こういう本がでるのはいいことだけど、またこういう間違った認識が広がるのは辟易する。WAIC/WBICは頻度論だから。