WAIC / WBIC / 渡辺ベイズ理論#

概要#

  • 正則でないモデル(例えばDeep Learningのような複雑なモデル)でも使えるようにAICを一般化したのがWAIC

  • そのように一般化したベイズが渡辺ベイズ

  • 代数幾何学を利用する

KL情報量#

D(qp)=EX[logq(X)p(X|θ)]=Xq(x)logq(X)p(X|θ)dx0
K(θ):=EX[logp(X|θ)p(X|θ)]

正則性#

K(θ)=0となるθの集合をΘとする。

以下3つの条件を満たすとき、正則であるという

  1. Θの要素θが単一

  2. θのヘッセ行列

正則性#

以下2つを満たすときq(x)p(x|θ)に対して正則であるという

  1. 平均対数損失関数を最小にするパラメータの集合Θ={θΘ|L(θ)}について、集合Θの要素がθの1つだけである

  2. θのヘッセ行列2L(θ)が正則(固有値が全て正の値)である

正則でない関数の例#

  • 最適解が複数→凸でない

  • 2回微分できない

f(x)=x4f(x)=4x3f(x)=12x2

f(x)=x4f(0)=0

import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-1, 1, 100)
y = x**4

plt.plot(x, y)
[<matplotlib.lines.Line2D at 0x7faefd115090>]
../../_images/5423b675fe26362a817be86a75b17ff455814c44ab6d755cc0c0d70067f77e5b.png
import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-1, 1, 100)
y = 4*x**3

plt.plot(x, y)
[<matplotlib.lines.Line2D at 0x7faefd1fe9e0>]
../../_images/2c75a1b88b50ec48a3acb330caa9c522f2ee194a636f9d1a315590c86ad41a3e.png
import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-1, 1, 100)
y = 12*x**2

plt.plot(x, y)
[<matplotlib.lines.Line2D at 0x7faefcd8b370>]
../../_images/5082317608d862f385f0ef6b494cfcd38a4ebfc358b605ce098951d05ac212f4.png

正則でない統計モデルの例#

  • 混合正規分布

P(x|a,b)=(1a)12πexp(x22)+a12πexp((xb)22)

で最適解がab=0のとき、KL情報量を最小化するθ=(a,b)Θが一意に決まらない

正則性を仮定すると得られるもの#

ニュートン法の確率収束#

最尤推定のときに使われることが多いニュートン法でヘッセ行列が逆行列を持たず、漸化式が収束しない

θnθ

漸近正規性#

p(θx1,,xn) 法則収束 N(θ+Δn,1nJ1)

法則収束:分布関数Fの連続点xで分布関数Fn(x)F(x)に収束する(n

事後平均、事後分散#

渡辺ベイズで出てくる大事な量

p(x|θ)の事後平均(予測分布) $r(xx1,,xn)=Θ{p(xθ)}p(θx1,,xn)dθ-\log p(x|\theta)E(x):=Θ{logp(xθ)}p(θx1,,xn)dθV(x):=Θ{logp(xθ)E(x)}2p(θx1,,xn)dθ$

汎化損失#

汎化損失#

予測分布を負の対数とって期待値とる $Gn:=EX[logr(Xx1,,xn)]$

経験損失#

Tn:=1ni=1n{logr(xix1,,xn)}

正則性を仮定しなくても、次のようになる#

Gn=EX[E(X)]12EX[V(X)]+oP(1n)Tn=1ni=1nE(xi)12ni=1nV(xi)+oP(1n)

WAIC#

WAIC = 経験損失Tn+事後分散の平均値Vn/n $E(x)=Θ{logp(xθ)}p(θx1,,xn)dθV(x)=Θ{logp(xθ)E(x)}2p(θx1,,xn)dθVn:=i=1nV(xi)WAIC:=Tn+Vnn$

相対的に有限な分散の範囲内でしかWAICは使えない#

(100問の本7章)

実現可能#

D(qp)=0となるθが存在するとき、qは{p(|θ)}θΘで実現可能という

実質的にunique(同質)#

p(xθ)=p(xθ),xX,θ,θΘ

相対的に有限な分散をもつ#

c>0EX[{logp(Xθ)p(Xθ)}2]cEX[logp(Xθ)p(Xθ)],θΘ,θΘ

正則でないモデルであってもWAICは使えるが、相対的に有限な分散の範囲内でしかWAICは使えない

正則のとき、AICWAIC#

正則のとき、漸近正規性から $Gn=EX[logp(Xθ)]+12ΔnJΔnTn=1ni=1nlogp(xiθ)12ΔnJΔnAICEX[logp(Xθ^(x1,,xn))]=EX[logp(Xθ)]+12ΔnJΔni=1nlogp(xiθ^(x1,,xn))=1ni=1nlogp(xiθ)12ΔnJΔn$

「渡辺ベイズはベイズじゃない」という批判#

こういう本がでるのはいいことだけど、またこういう間違った認識が広がるのは辟易する。WAIC/WBICは頻度論だから。

https://twitter.com/kenmcalinn/status/1705383267405615173