距離や類似度の関数#
量的変数#
特徴ベクトルの要素が実数値の場合
ユークリッド距離(L2距離)
よく使われる
シティブロック距離(マンハッタン距離・L1距離)
外れ値に対して頑健
ミンコフスキー距離(Lp距離)
ミンコフスキー距離(Minkowski distance)。
距離とも呼ばれる。L2距離などを一般化したもの
マハラノビス距離(Mahalanobis distance)
はサンプルの平均、 は共分散行列ベクトルの要素ごとの分散に大きな差があるとき使われる
コサイン類似度(cosine similarity)
類似度なので距離とは逆向き
ベクトルの角度に意味がある文書ベクトルなどに使われる
なお、類似度
カテゴリカル変数#
特徴ベクトルが有限の値のどれかを取るカテゴリ値
単純一致係数(simple matching coefficient)
類似度の指標。
は条件が成立したとき1、そうでないとき0をとる指示関数
Jaccard係数(Jaccard coefficient)
類似度の指標。
0/1のいずれかの値を取るカテゴリ値で、とくに値が1の場合に注目しているときに使われる(1が「購入」の意味を持つ場合など)