経験過程#

Notation#

  • \(P\):可測空間\((\mathcal{X}, \mathcal{B})\)における測度

  • \(f: \mathcal{X} \mapsto \mathbb{R}^k\):可測関数

  • \(Pf = \int f dP\)

  • \(E_P f(X_1)\):期待値。\(X_1\)\(P\)に従い分布する確率変数

経験過程#

標本\(X_1,\dots,X_n\)経験測度(empirical measure) \(\mathbb{P}_n\)

\[ \mathbb{P}_n f=\frac{1}{n} \sum_{i=1}^n f\left(X_i\right) \]

経験過程(empirical process) \(\mathbb{G}_n\)は経験測度の中心化されスケールされたものであり、

\[ \mathbb{G}_n f :=\sqrt{n}\left(\mathbb{P}_n f-P f\right)=\frac{1}{\sqrt{n}} \sum_{i=1}^n\left(f\left(X_i\right)-\mathrm{E}_P f\left(X_i\right)\right) \]

と定義される。

経験分布関数#

分布関数\(F\)から得られた確率標本\(X_1,\dots,X_n\)があるとする。

経験分布関数 (empirical distribution function)は以下のように定義される。

\[ \mathbb{F}_n(t)=\frac{1}{n} \sum_{i=1}^n 1 \{X_i \leq t\} \]

\(n\mathbb{F}_n(t)\)は平均\(nF(t)\)で二項分布するため、この推定量は不偏である。 また、大数の法則により一致性もある。

\[ \mathbb{F}_n(t) \xrightarrow{\text { as }} F(t), \quad \text { every } t \]

中心極限定理により、漸近正規性をもつ。

\[ \sqrt{n}\left(\mathbb{F}_n(t)-F(t)\right) \rightsquigarrow N \big(0, F(t)(1-F(t))\big) \]

Glivenko-Cantelli theorem#

大数の法則を拡張し、一様収束(uniform convergence)することを示す。

まず、uniform distanceについて。経験分布のuniform distance

\[ \left\|\mathbb{F}_n-F\right\|_{\infty}=\sup _t\left|\mathbb{F}_n(t)-F(t)\right| \]

はKolmogorov-Smirnov統計量として知られている。

定理(Glivenko-Cantelli)

\(X_1,X_2,\dots,\)が分布関数\(F\)に従うi.i.d.の確率変数であるとき、

\[ \left\|\mathbb{F}_n-F\right\|_{\infty} \overset{\text{as}}{\to} 0 \]

Donsker定理#

i.i.d. でない系列にも適用できるよう一般化した中心極限定理。

定理(Donsker)

\(X_1,X_2,\dots,\)が分布関数\(F\)に従うi.i.d.の確率変数であるとき、

経験過程の列\(\sqrt{n}\left(\mathbb{F}_n-F\right)\)は空間\(D[-\infty, \infty]\)におけるタイトな確率要素(random element) \(\mathbb{G}_F\)に分布収束し、その周辺分布は平均が0で共分散関数が\(\mathrm{EG}_F\left(t_i\right) \mathbb{G}_F\left(t_j\right)=F\left(t_i \wedge t_j\right)-F\left(t_i\right) F\left(t_j\right)\)である正規分布になる

\(\mathbb{G}_F\)\(F\)-ブラウン橋(F-Brownian bridge)過程として知られる

超一般化中心極限定理

Donsker定理をさらに一般化したものも提案されている様子

なぜ世界は「べき則」であらわされるのか -ビッグデータの新しい統計法則の発見- | 京都大学

参考文献#