中心極限定理#
分布収束#
確率変数の列
が、
中心極限定理#
中心極限定理(central limit theorem: CLT)とは、一言でいうと、
標本数が十分に大きければ、元の分布がどんな分布であっても、その標本平均の分布は
の正規分布になる
という定理。
シミュレーションで確かめる中心極限定理#
例えば、0から1の範囲の値をとる一様分布
標本を100個得られたとして、ヒストグラムと標本平均を描くと次のようになる。
Show code cell source
import numpy as np
import matplotlib.pyplot as plt
import japanize_matplotlib
np.random.seed(0)
n = 100
x = np.random.uniform(low=0, high=1, size=n)
fig, ax = plt.subplots(dpi=90, figsize=[4, 2])
ax.hist(x)
ax.set(title="Histogram of Data")
ax.axvline(x.mean(), color="darkorange")
ax.text(x.mean() + 0.02, 1, f"標本平均: {x.mean():.3f}", color="darkorange")
fig.show()

「調査を行って標本をとって平均を計算する」という作業をたくさん繰り返したとすると、この標本平均の分布は正規分布に近づいていき、その平均値は母平均に近づいていく。
Show code cell source
n_trial = 500
mean_values = []
for trial_i in range(n_trial):
x = np.random.uniform(size=n)
mean_values.append(x.mean())
fig, ax = plt.subplots(dpi=90, figsize=[4, 2])
ax.hist(mean_values)
ax.set(title="平均値の標本分布")
mu = np.array(mean_values).mean()
ax.axvline(mu, color="darkorange")
ax.text(mu + 0.005, 5, f"μ = {mu:.3f}", color="darkorange")
fig.show()

もう少し詳しい話#
定理 (中心極限定理)
ここで
(証明)
TODO: 続き書く
Note
特性関数
標本和の標本分布#
標本和
ある分布に従う2つ以上の確率変数の和が元の分布と同じ分布に従うことを再生性をもつという。二項分布、ポアソン分布、正規分布は再生性をもつ。
二項母集団#
母集団が二項分布のとき、中心極限定理で正規分布に近似して解く事が多い。
正規母集団#
母集団が平均
ポアソン母集団#
母集団が平均3.72e-44
という極めて小さな値になってしまう)。そのため中心極限定理を使って扱う場合も多い。