ノンパラメトリック密度推定#
2つの正規分布からなる混合分布があるとする
確率密度関数は下の図の左側のようになる。
この分布から100個のサンプルが得られたとする。ヒストグラムは右側の図のようになる。
ヒストグラム密度推定法#
ヒストグラム密度推定法(histogram density estimation method)
1つの連続変数\(x\)が対象の場合を考える。
標準的なヒストグラムでは、\(x\)を幅\(\Delta_i\)の区間に区切り、\(i\)番目の区間に入った\(x\)の観測値の数\(n_i\)と観測値の総数\(N\)を用いて、各区間の確率密度を
で推定する。
この方法の結果の良し悪しは区間幅\(\Delta_i\)に大きく依存する。幅が狭すぎても区間に含まれるサンプルが少なすぎて推定のばらつきが大きくなるし、幅が広すぎても表現力が不足して分布をうまく捉えられなくなる。
また、ヒストグラム法の問題として
推定した密度が区間の縁で不連続になる
次元の呪いに弱い:次元数を上げていった場合、\(D\)次元空間を各変数につき\(M\)個の区間にすると、区間の総数は\(M^D\)個になり、各区間に含まれるデータ量が不足する
といったものがある
カーネル密度推定法#
\(D\)次元のユークリッド空間中の未知の確率密度\(p(\boldsymbol{x})\)から観測値の集合が得られていて、この集合から\(p(\boldsymbol{x})\)の値を推定したいとする。
\(\boldsymbol{x}\)を含むある小さな領域\(\mathcal{R}\)を考える。この領域に割り当てられた確率は
と表すことができる。
ここで\(p(\boldsymbol{x})\)から得られた\(N\)個の観測値からなるデータ集合があるとする。各データ店が領域\(\mathcal{R}\)中にある確率は\(P\)なので、\(\mathcal{R}\)内の点の総数\(K\)は二項分布に従う
よって、データ点がこの領域内にある平均割合と分散は
となる。
大きい\(N\)については、分散が小さくなって平均の周囲で鋭く尖った分布となり、
となる。
\(\mathcal{R}\)が確率密度\(p(\boldsymbol{x})\)がこの領域内でほぼ一定とみなせるほど十分に小さいものであると仮定できるのであれば、領域の体積\(V\)を用いて
となる。
これらを組み合わせて、次の密度の推定量が得られる。
Note
上記の推定量の正しさは、2つの相反する仮定に基づく
領域内では密度が一定とみなせるほど十分に領域\(\mathcal{R}\)は小さい
領域内のデータ点\(K\)が二項分布が尖るほどに多く存在している
カーネル関数#
確率密度を求めたいデータ点\(\boldsymbol{x}\)を中心とする小さな超立方体を領域\(\mathcal{R}\)とする。 この領域内にある点の数\(K\)を数えるには、次の関数を定義しておくと便利である。
これは原点を中心とする単位立方体を表す。 関数\(k(\boldsymbol{u})\)はカーネル関数(kernel function)のひとつであり、今回の用途ではParzen窓(parzen window)とも呼ばれる。
\(k((\boldsymbol{x} - \boldsymbol{x}_n)/h)\)は\(\boldsymbol{x}\)を中心とする一辺が\(h\)の立方体の内部に、データ点\(\boldsymbol{x}_n\)があれば1に、そうでなければ0となる。
例えば\(\boldsymbol{x} = (2, 3), h=2\)の場合は次の図のようになる
この立方体内部の総点数は
となる。
さきほどの\(p(\boldsymbol{x})\)の推定量
に代入すると
一辺が\(h\)の\(D\)次元立方体の体積が\(V=h^D\)であることを用いると
となる。
このカーネルを使用した推定結果は次の図のようになる。 立方体を重ねるような推定を行うため平滑性がなく、ギザギザした密度関数が推定されている。
ガウシアンカーネル#
ガウス分布(正規分布)をカーネル関数に用いることで滑らかな密度推定を行う。
(参考)Scikit-learn実装#
2.8. Density Estimation — scikit-learn 1.2.2 documentation
(※kernel='tophat'は立方体カーネルに近い\(k(u; h) \propto 1 \text{ if } u < h\) というもの)