Wasserstein 距離(EMD)#
Wasserstein 距離(ワッサースタイン距離)は、2つの確率分布 \(P, Q\) の差を「確率質量を どれだけ・どれだけ遠くへ 移動させれば \(P\) を \(Q\) に変換できるか」 という 最適輸送(Optimal Transport) の観点で定義する距離。
直感的には、分布を「土の山」とみなし、別の分布の形にするために土を運ぶときの 最小の運搬コスト を測る量であり、 Earth Mover’s Distance (EMD) とも呼ばれる。
(自然言語処理における「編集距離」に近いかも?)
定義#
もっとも一般化された定義は \(p\)-Wasserstein
\(p\)-Wasserstein 距離#
距離空間 \((\mathcal{X}, \|\cdot\|)\) 上の確率分布 \(P, Q\) に対し、
\(p \ge 1\) とすると、\(p\)-Wasserstein 距離は次で定義される。
\(\Pi(P, Q)\):周辺分布がそれぞれ \(P, Q\) となる結合分布(輸送計画)
\(\gamma(x, y)\):点 \(x\) から \(y\) へ運ばれる確率質量
\(\|x - y\|\):輸送コスト(通常はユークリッド距離)
1次 Wasserstein 距離#
実務・理論の両面で最もよく使われるのが 1次 Wasserstein 距離 (Wasserstein-1 distance)。
外れ値に比較的ロバスト
分布の平行移動を自然に反映
from scipy.stats import wasserstein_distance
p = [0, 1, 1]
q = [1, 0, 0]
wasserstein_distance(p, q)
0.3333333333333333
性質#
距離の公理を満たす#
Wasserstein 距離は、次の性質をすべて満たす。
非負性:\(W_p(P, Q) \ge 0\)
同一性:\(W_p(P, Q) = 0 \iff P = Q\)
対称性:\(W_p(P, Q) = W_p(Q, P)\)
三角不等式:\(W_p(P, R) \le W_p(P, Q) + W_p(Q, R)\)
Kantorovich–Rubinstein 双対表現#
\(W_1\) には重要な双対表現が存在する。
\(\|f\|_{\mathrm{Lip}} \le 1\):1-Lipschitz 条件
期待値差の最大値として表現される
Wasserstein GAN (WGAN) の理論的基盤
KL ダイバージェンスとの比較#
KL ダイバージェンスは
で定義されるが、次のような違いがある。
観点 |
KL |
Wasserstein |
|---|---|---|
台の不一致 |
発散しやすい |
安定 |
幾何構造 |
反映しない |
反映する |
距離性 |
なし |
あり |