Wasserstein 距離(EMD)#

Wasserstein 距離(ワッサースタイン距離)は、2つの確率分布 \(P, Q\) の差を「確率質量を どれだけどれだけ遠くへ 移動させれば \(P\)\(Q\) に変換できるか」 という 最適輸送(Optimal Transport) の観点で定義する距離。

直感的には、分布を「土の山」とみなし、別の分布の形にするために土を運ぶときの 最小の運搬コスト を測る量であり、 Earth Mover’s Distance (EMD) とも呼ばれる。

(自然言語処理における「編集距離」に近いかも?)

定義#

もっとも一般化された定義は \(p\)-Wasserstein

\(p\)-Wasserstein 距離#

距離空間 \((\mathcal{X}, \|\cdot\|)\) 上の確率分布 \(P, Q\) に対し、
\(p \ge 1\) とすると、\(p\)-Wasserstein 距離は次で定義される。

\[ W_p(P, Q) = \left( \inf_{\gamma \in \Pi(P, Q)} \int_{\mathcal{X} \times \mathcal{X}} \|x - y\|^p \, d\gamma(x, y) \right)^{1/p} \]
  • \(\Pi(P, Q)\):周辺分布がそれぞれ \(P, Q\) となる結合分布(輸送計画)

  • \(\gamma(x, y)\):点 \(x\) から \(y\) へ運ばれる確率質量

  • \(\|x - y\|\):輸送コスト(通常はユークリッド距離)

1次 Wasserstein 距離#

実務・理論の両面で最もよく使われるのが 1次 Wasserstein 距離 (Wasserstein-1 distance)。

\[ W_1(P, Q) = \inf_{\gamma \in \Pi(P, Q)} \int \|x - y\| \, d\gamma(x, y) \]
  • 外れ値に比較的ロバスト

  • 分布の平行移動を自然に反映

from scipy.stats import wasserstein_distance

p = [0, 1, 1]
q = [1, 0, 0]
wasserstein_distance(p, q)
0.3333333333333333

性質#

距離の公理を満たす#

Wasserstein 距離は、次の性質をすべて満たす。

  • 非負性:\(W_p(P, Q) \ge 0\)

  • 同一性:\(W_p(P, Q) = 0 \iff P = Q\)

  • 対称性:\(W_p(P, Q) = W_p(Q, P)\)

  • 三角不等式:\(W_p(P, R) \le W_p(P, Q) + W_p(Q, R)\)

Kantorovich–Rubinstein 双対表現#

\(W_1\) には重要な双対表現が存在する。

\[ W_1(P, Q) = \sup_{\|f\|_{\mathrm{Lip}} \le 1} \left( \mathbb{E}_{P}[f(X)] - \mathbb{E}_{Q}[f(X)] \right) \]
  • \(\|f\|_{\mathrm{Lip}} \le 1\):1-Lipschitz 条件

  • 期待値差の最大値として表現される

  • Wasserstein GAN (WGAN) の理論的基盤

KL ダイバージェンスとの比較#

KL ダイバージェンスは

\[ D_{\mathrm{KL}}(P \| Q) = \int p(x) \log \frac{p(x)}{q(x)} \, dx \]

で定義されるが、次のような違いがある。

観点

KL

Wasserstein

台の不一致

発散しやすい

安定

幾何構造

反映しない

反映する

距離性

なし

あり