距離や類似度の関数#

量的変数#

特徴ベクトルの要素が実数値の場合xi,xjRKの距離dij

ユークリッド距離(L2距離)

[k=1K(xikxjk)2]1/2
  • よく使われる

シティブロック距離(マンハッタン距離・L1距離)

k=1K|xikxjk|
  • 外れ値に対して頑健

ミンコフスキー距離(Lp距離)

[k=1K|xikxjk|p]1/p
  • ミンコフスキー距離(Minkowski distance)。Lp距離とも呼ばれる。

  • L2距離などを一般化したもの

マハラノビス距離(Mahalanobis distance)

[(xix)Σ1(xjx)]1/2
  • x¯はサンプルの平均、Σは共分散行列

  • ベクトルの要素ごとの分散に大きな差があるとき使われる

コサイン類似度(cosine similarity)

xixjxixj
  • 類似度なので距離とは逆向き

  • ベクトルの角度に意味がある文書ベクトルなどに使われる

なお、類似度sijdij=1sijと変換すれば距離になる

カテゴリカル変数#

特徴ベクトルが有限の値のどれかを取るカテゴリ値

単純一致係数(simple matching coefficient)

sij=1Kk=1KI[xik=xjk]
  • 類似度の指標。

  • I[条件]は条件が成立したとき1、そうでないとき0をとる指示関数

Jaccard係数(Jaccard coefficient)

k=1KI[xik=1xjk=1]Kk=1KI[xik=0xjk=0]
  • 類似度の指標。

  • 0/1のいずれかの値を取るカテゴリ値で、とくに値が1の場合に注目しているときに使われる(1が「購入」の意味を持つ場合など)

参考#

神嶌敏弘「クラスタリング」