漸近理論#
関係する定理#
マルコフの不等式#
マルコフの不等式
非負の確率変数\(X\)と任意の定数\(c > 0\)に対して、
が成立する。
証明
指示関数\(I(\cdot)\)をもちいて
マルコフの不等式は 期待値よりも極端に大きな値を取る確率が低い ことを意味する。
例えば\(c = 5 E[X]\)とおけば
from scipy.stats import expon
mean = 2 # 期待値 E[X] = 2 の指数分布は scale=2
dist = expon(scale=mean)
threshold = 5 * mean # 5 * E[X]
# P(X >= 5 * E[X]) = 1 - CDF(threshold)
prob = 1 - dist.cdf(threshold)
upper_bound = 1 / 5 # マルコフの不等式の上限
print(f"P(X >= 5E[X]) = {prob:.2g}")
print(f"Markov Inequality Upper Bound = {upper_bound:.2g}")
P(X >= 5E[X]) = 0.0067
Markov Inequality Upper Bound = 0.2
チェビシェフの不等式#
チェビシェフの不等式
\(E[X] = \mu, \mathrm{Var}[X] = \sigma^2\)がいずれも有限な確率変数\(X\)を考える。
このとき任意の\(c>0\)に対して
が成立する。
証明
\(Y=(X-\mu)^2\)とおき、\(Y\)にマルコフの不等式
を適用すれば、
ここで \(Y \geq c^2 \Longleftrightarrow|X-\mu| \geq c\) であるから \(P(Y \geq c^2) = P(|X - \mu| \geq c)\) となり
が成立する
チェビシェフの不等式は 期待値から値が極端に離れる確率が低い ことを意味する。
例えば\(c = 5 \sigma\)とおけば
例:2シグマ範囲#
期待値からの2シグマ範囲には正規分布だと95%が入る。
import numpy as np
from scipy.stats import norm
mu = 0 # 平均
sigma = 1 # 標準偏差
lower = mu - 2 * sigma
upper = mu + 2 * sigma
dist = norm(loc=mu, scale=sigma)
# P(∣X−μ∣ ≤ 2σ) = P(μ−2σ ≤ X ≤ μ+2σ) = cdf(μ+2σ) - cdf(μ-2σ)
p_2sigma = dist.cdf(upper) - dist.cdf(lower) # P(-2σ <= X <= 2σ)
print(f"P(∣X−μ∣ ≤ 2σ) = {p_2sigma:.3f}")
P(∣X−μ∣ ≤ 2σ) = 0.954
チェビシェフの不等式による任意の分布への下限は
となり、正規分布以外でも75%以上あることがわかる
例:期待値からのズレ#
\(n\)個のサンプル\(X_1,\dots,X_n\)がi.i.d.であるとする。これらのサンプルの標本平均\(\bar{X}\)がその期待値\(E[\bar{X}]\)からどれだけズレるかを見てみる
もし\(c=1\)なら、標本平均と期待値の差の絶対値が1以上になる確率はその分散が上限になるということ。
例えばサンプルが商談から成約したかどうかであり、真の成約率が20%という確率変数\(X\sim Ber(p=0.2)\) の実現値だとすると、\(E[\bar{X}]=0.2, \operatorname{Var}[\bar{X}] = p(1-p) = 0.16\)で、このとき\(c=0.1\)とおけば
となり、仮に\(n=100\)なら16%程度の確率が上限(分布によらない上限)になることがわかる
ヘフディングの不等式#
チェビシェフの不等式は幅広い範囲で有用ではあるものの、裾の確率を緩く評価してしまう。
例えば上記の期待値からのズレの例
では、\(n=1000\)であっても「\(1.6\%\)は起こるかもしれない」というかなり安全に寄った評価をしてしまう。これは実際にシミュレーションすると0%になるレベルの稀少な事例にもかかわらず。
このような裾の確率をより厳しく抑えるのに役立つのが ヘフディングの不等式 (Hoeffding’s inequality)
定理(ヘフディングの不等式)
\(X_1,\dots,X_n\)を独立な確率変数、\(\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i\)をその標本平均とし、各\(X_i\)は区間\([a_i, b_i]\)に値を取るとすると、任意の\(c > 0\)に対して
が成り立つ。
すべての確率変数\(X_i\)が区間\([0,1]\)に値を取る場合はもっと単純に
となる。
前出の成約率の例だと、\(n=1000, c=0.1\)のとき
となり、観測結果に近くなる。
しかし\(n=100, c=0.1\)のとき
とだいぶ大きく評価することもある様子…?
確率収束#
(定義)確率収束
サンプル数\(n\)を無限大に近づけていったとき、確率変数列\(\{X_n\}_{n=1}^{\infty}\)が定数\(c\)から外れる確率がゼロに近づく、すなわち任意の\(\varepsilon>0\)について
ならば、「\(X_n\)は\(c\)に確率収束(convergence in probability)する」といい
あるいは
と表す
平均2乗収束#
(定義)平均2乗収束
確率変数列\(\{X_n\}_{n=1}^{\infty}\)が確率変数\(X\)に平均2乗収束するとは
となることをいう。
チェビシェフの不等式を使うと「確率変数列がある確率変数に平均2乗収束するならば確率収束する」という命題が導かれる → 大数の法則
例:大数の法則#
(定理)大数の(弱)法則
\(X_1, \dots, X_n\)はi.i.d.で、\(E[|X_i|] < \infty\)とする。このとき、標本平均\(\bar{X}\)は\(\mu = E[X_i]\)に確率収束する
証明
\(\varepsilon > 0\)を任意の定数とする。\(E[\bar{X}_n] = \mu, \mathrm{Var}[\bar{X}_n] = \sigma^2/n\)であるから、\(\bar{X}\)にチェビシェフの不等式を適用すれば
となる。ここで\(n \to \infty\)とおけば右辺は0に収束するから
例:推定量の一致性#
推定量\(\hat{\theta}\)が真のパラメータ\(\theta\)に確率収束
するとき、その推定量は一致性(consistency)を持つという
概収束#
(定義)概収束
確率変数列\(\{X_n\}\)が確率変数\(X\)について
となるとき概収束(almost sure convergence)するといい、
と表す。
分布収束#
(定義)分布収束
確率変数列\(\{X_n\}\)が確率変数\(X\)に分布収束(convergence in distribution)するとは、
が\(F_X(x)\)のすべての連続な点で成り立つことをいい、\(X_n \overset{d}{\to} X\)と表す。
例:中心極限定理#
確率変数列\(\{X_n\}_{n=1}^{\infty}\)はi.i.d.で平均\(\mu:=E[X_i]\)と分散\(\sigma^2:=Var(X_i)\)が存在するとする。このとき、以下の分布収束が成り立つ
ここで\(N(0, \sigma^2)\)を\(\bar{X}\)の漸近分布(asymptoticd distribution)という。
(※なお、\(N(0, \sigma^2)\)は正規分布を表す記号ではなく、正規分布に従う確率変数を意味するので注意。ややこしい記法だが標準的でよく見られる書き方である)
なお、上の式は
のように整理できる。
(\(\sigma^2\)は未知だが標本分散を用いてもこの関係性が成り立つ)