標本分布

標本分布#

統計量の確率分布#

統計的性質を分析したい対象を母集団（population）といい、調査等により母集団から得られたデータを標本（sample）という。

統計的推測では母集団の平均（母平均）\(\mu\)や分散（母分散）\(\sigma^2\)といった母数（population parameter）を標本に基づいて推定する。

標本から得られた平均や分散

\[\begin{split} \begin{align} \bar{X} &= \frac{1}{n} \sum^n_{i=1} X_i\\ S^2 &= \frac{1}{n} \sum^n_{i=1} (X_i - \bar{X})^2 \end{align} \end{split}\]

はそれぞれ標本平均（sample mean）や標本分散（sample variance）と呼ばれる。

標本平均のような、標本に基づいた関数で母数を含んでないものを統計量（statistics）といい、その確率分布を標本分布（sampling distribution）という。

母数の推定のためには統計量がどのようにばらつくか等の標本分布の性質が利用される。

平均が\(\mu\)、分散が\(\sigma^2\)の確率分布を母集団とする独立同分布から得られたランダム・サンプルを

\[ X_1, \cdots, X_n, i.i.d. \sim (\mu, \sigma^2) \]

と書くことにする。

\(E[X_i] = \mu, V[X_i] = \sigma^2\)を用いて、標本平均\(\bar{X}\)の平均と分散を計算すると

\[\begin{split} \begin{align} E[\bar{X}] &= \frac{1}{n} \sum^n_{i=1} E[X_i] = \frac{1}{n} \sum^n_{i=1} \mu = \mu\\ V[\bar{X}] &= \frac{1}{n^2} \sum^n_{i=1} V[X_i] = \frac{\sigma^2}{n} \end{align} \end{split}\]

となる。

線形結合の平均・分散

定数\(a_1, \cdots, a_k\)による線形結合\(\sum^k_{i=1} a_i X_i\)を考えると、平均は

\[ E[\sum^k_{i=1} a_i X_i] = \sum^k_{i=1} a_i E[X_i] = \sum^k_{i=1} a_i \mu_i \]

分散は

\[\begin{split} \begin{align} V \left[ \sum^k_{i=1} a_i X_i \right] &= E \left[ \left\{\sum^k_{i=1} a_i (X_i - \mu_i) \right\}^2 \right] \\ &= E \left[ \sum^k_{i=1} \{ a_i (X_i - \mu_i) \}^2 + \sum^k_{i=1} \sum^k_{j=i+1} a_i a_j (X_i -\mu_i) (X_j -\mu_j) \right] \\ &= \sum^k_{i=1} a_i^2 E[(X_i - \mu_i)^2] + 2 \sum^k_{i=1} \sum^k_{j=i+1} a_i a_j E[(X_i - \mu_i)(X_j - \mu_j)] \\ &= \sum^k_{i=1} a_i^2 \sigma_{ii} + 2 \sum^k_{i=1} \sum^k_{j=i+1} a_i a_j \sigma_{ij} \end{align} \end{split}\]

であり、\(X_1, \cdots, X_n\)が互いに独立であれば共分散\(\sigma_{ij}\)はゼロになるため

\[ V \left[ \sum^k_{i=1} a_i X_i \right] = \sum^k_{i=1} a_i^2 \sigma_{ii} \]

となる。

これらの線形結合の定数\(a_i\)を\(1/n\)に置き換えれば上記の標本分布の平均や分散の式になる。

（参考）和の二乗の展開

\[\begin{split} \begin{align} (x_1 + x_2 + x_3)^2 &= x_1^2 + x_2^2 + x_3^2 + 2 (x_1 x_2 + x_1 x_3 + x_2 x_3) \\ &= \sum^n_{i=1} x_i^2 + 2 \sum_{i=1}^n \sum^n_{j = i + 1} x_i x_j \end{align} \end{split}\]

なので

\[ (x_1 + \cdots + x_n)^2 = (\sum^n_{i=1} x_i)^2 = \sum^n_{i=1} x_i^2 + 2 \sum_{i=1}^n \sum^n_{j = i + 1} x_i x_j \]

不偏分散#

なお、\(\bar{X}\)は期待値をとると\(\mu\)になるが、\(S^2\)の期待値は\(\sigma^2\)にはならない。

\(X_i - \bar{X} = X_i - \mu - (\bar{X} - \mu)\)と代入すると、

\[\begin{split} \begin{align} \sum^n_{i=1} (X_i - \bar{X})^2 &= \sum^n_{i=1} [(X_i - \mu) - (\bar{X} - \mu)]^2\\ &= \sum^n_{i=1} (X_i - \mu)^2 - 2 \sum^n_{i=1} (X_i - \mu)(\bar{X} - \mu) + \sum^n_{i=1}(\bar{X} - \mu)^2\\ &= \sum^n_{i=1} (X_i - \mu)^2 - 2 (\bar{X} - \mu) \sum^n_{i=1} (X_i - \mu) + n(\bar{X} - \mu)^2 \\ & \hspace{2em} (\textstyle \because \bar{X}と\muは定数のため\sumの外に出せる)\\ &= \sum^n_{i=1} (X_i - \mu)^2 - 2 (\bar{X} - \mu) (n\bar{X} - n\mu) + n(\bar{X} - \mu)^2 \\ & \hspace{2em} (\textstyle \because \bar{X}=\frac{1}{n}\sum X_i なので n\bar{X} = \sum X_i)\\ &= \sum^n_{i=1} (X_i - \mu)^2 - 2n (\bar{X} - \mu)^2 + n (\bar{X} - \mu)^2 \\ &= \sum^n_{i=1} (X_i - \mu)^2 - n (\bar{X} - \mu)^2 \end{align} \end{split}\]

なので

\[\begin{split} \begin{align} E[\sum_{i=1}^n (X_i - \bar{X})^2] &= \sum^n_{i=1} E[(X_i - \mu)^2] - n E[(\bar{X} - \mu)^2]\\ &= n\sigma^2 - n\frac{\sigma^2}{n}\\ &= (n - 1) \sigma^2 \end{align} \end{split}\]

となるため、期待値が\(\sigma^2\)になるためには\(\sum_{i=1}^n (X_i - \bar{X})^2\)を\(n-1\)で割る必要がある。そのような統計量

\[ V^2 = \frac{1}{n-1} \sum^n_{i=1} (X_i - \bar{X})^2 \]

を不偏分散という。

標本分散と不偏分散の変換を行う補正

\[ V^2 = a S^2 \]

とおけば、

\[ a = \frac{n}{n-1} \]

逆のことをやりたい場合は\(\frac{n-1}{n}\)を乗じる（例えば、Rのvar()はn-1固定なので標本分散にしたい場合はこっちを掛ける）

\[ \frac{n-1}{n} V^2 = \frac{n-1}{n} \frac{1}{n-1} \sum^n_{i=1} (X_i - \bar{X})^2 = \frac{1}{n} \sum^n_{i=1} (X_i - \bar{X})^2 = S^2 \]

不偏標準偏差

非線形変換をかませるので、どの分布でも一般に不偏標準偏差になるとは言えない

不偏分散の平方根は標準偏差の不偏推定量か | ブログ | 統計WEB

最尤推定量は\(n\)で割る#

最尤推定量は不偏分散とは一致しない。

データ\(\boldsymbol{x} = (x_1, x_2, \dots, x_n)\)が正規分布

\[ P(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp \left\{ - \frac{(x-\mu)^2}{2\sigma^2} \right\} \]

に従う独立に得られたサンプルだとする。

対数尤度関数は次のものになる。

\[ \ell(\mu, \sigma^2 |\boldsymbol{x}) = - \frac{n}{2} \log(2\pi) - \frac{n}{2} \log (\sigma^2) - \frac{1}{2\sigma^2} \sum^n_{i=1} (x_i - \mu)^2 \]

まず\(\mu\)に関して偏微分してゼロとおくと

\[\begin{split} \begin{align} \frac{\partial}{\partial \mu} \ell(\mu, \sigma^2 |\boldsymbol{x}) &= -1 \times 2 \times - \frac{1}{2\sigma^2} \sum^n_{i=1} (x_i - \mu)\\ &= \frac{1}{\sigma^2} \sum^n_{i=1} (x_i - \mu)\\ &= \frac{1}{\sigma^2} \sum^n_{i=1} x_i - \frac{1}{\sigma^2} \sum^n_{i=1} \mu = 0\\ \implies \frac{1}{\sigma^2} \sum^n_{i=1} x_i &= \frac{1}{\sigma^2} \sum^n_{i=1} \mu\\ \implies \frac{1}{\sigma^2} \sum^n_{i=1} x_i &= \frac{n}{\sigma^2} \mu\\ \implies \frac{1}{n} \sum^n_{i=1} x_i &= \mu \end{align} \end{split}\]

よって

\[ \hat{\mu} = \frac{1}{n} \sum^n_{i=1} x_i = \bar{x} \]

なので、最尤推定量とモーメント推定量は一致する。

続いて\(\sigma^2\)について偏微分してゼロとおくと

\[\begin{split} \begin{align} \frac{\partial}{\partial \sigma^2} \ell(\mu, \sigma^2 |\boldsymbol{x}) &= - \frac{n}{2 \sigma^2} + \frac{1}{2 \sigma^4} \sum^n_{i=1} (x_i - \mu)^2 = 0 \\ \implies \frac{n}{2 \sigma^2} &= \frac{1}{2 \sigma^4} \sum^n_{i=1} (x_i - \mu)^2\\ \implies n &= \frac{1}{\sigma^2} \sum^n_{i=1} (x_i - \mu)^2\\ \implies \sigma^2 &= \frac{1}{n} \sum^n_{i=1} (x_i - \mu)^2\\ \end{align} \end{split}\]

よって

\[ \hat{\sigma}^2 = \frac{1}{n} \sum^n_{i=1} (x_i - \bar{x})^2 \]

となり、こちらもモーメント推定量と一致する

参考文献#

不偏分散を別の観点から説明：統計学で避けて通れない自由度の話 | 豆蔵デベロッパーサイト
不偏分散おかしくね？最尤推定量のほうがよくね？派：Tsuyoshi Ide (井手剛)さんはTwitterを使っています: 「標本分散の定義式は、いわゆる不偏推定量（N-1で割る）と最尤推定量（Nで割る）という2通りあり、わかりにくいと思います混乱しがちですので、初心者向けのラフな解説を書きました。 https://t.co/hDBcKYd2Pf こう対比してみると、頻度派と言われる統計学者の論法の不自然さが際立つ感じがします。」 / Twitter