ダイバージェンス# エントロピー# エントロピー# H(p)=−∫p(x)logp(x)dx 交差エントロピー# H(p,q)=−∫p(x)logq(x)dx Kullback-Leibler Divergance# 離散の場合 DKL(P||Q)=∑iP(i)logP(i)Q(i) 連続の場合 DKL(P||Q)=∫−∞∞p(x)logp(x)q(x)dx 交差エントロピーとの関係# logMN=logM−logNより、 H(p,q)=H(p)+DKL(p||q)=−∫p(x)logp(x)dx+∫p(x)logp(x)q(x)dx=−∫p(x)logp(x)dx+∫p(x){logp(x)−logq(x)}dx=−∫p(x)logp(x)dx⏟H(p)+∫p(x)logp(x)dx⏟H(p)−∫p(x)logq(x)dx⏟H(p,q) DKL(p||q)=H(p,q)−H(p)=−∫p(x)logq(x)dx−∫p(x)logp(x)dx Density Power Divergence# β-divergenceとも KLダイバージェンスの拡張で、外れ値に頑健 Basu et al. (1998). Robust and efficient estimation by minimising a density power divergence. Biometrika, 85(3), 549-559. Dβ(Q,P)=dβ(Q,P)−dβ(Q,Q)dβ(Q,P)=−1β∫p(x)βdQ(x)+r 積分を回避する案# paper: [2307.05251] A stochastic optimization approach to minimize robust density power-based divergences for general parametric density models 著者tweet: A. OkunoさんはTwitterを使っています: 「公開しました.ざっくりいうと,悪名高い累乗の積分項があり今まで正規分布や一部の確率モデルでしか最適化ができなかったロバストダイバージェンスを”一般の”確率モデルに対して最適化する方法を提案しています.個人的にはかなり非自明で,言われれば当たり前だけど,思いつくまで10年かかりました.」 / Twitter