信頼区間と検定の関係性

信頼区間と検定の関係性#

信頼区間#

平均値の区間推定を行う場合について考える。

母平均をμ、標本平均をX¯とすると、Z=n(X¯μ)σは標準正規分布に従うため確率を計算できるため、信頼係数1αに相当する確率になる区間

P(Zα/2n(X¯μ)σZα/2)=1α

となるように区間を決めて、これをμについて解くと

P(X¯Zα/2×σnμX¯+Zα/2×σn)=1α

と、母平均を含む確率が1αの区間ということになる。

信頼区間を取り出すと

[X¯Zα/2×σn,X¯+Zα/2×σn]

となる。

Hide code cell source
import numpy as np
import matplotlib.pyplot as plt
import japanize_matplotlib
from scipy.stats import norm

n = 200
sigma = 2
x = norm.rvs(loc=10, scale=sigma, size=n, random_state=0)
x_bar = x.mean()

fig, axes = plt.subplots(dpi=100, figsize=[11, 2], ncols=3)
# Histogram
axes[0].set(title=f"Sample (n={n}, σ={sigma})", xlabel="$x$")
axes[0].hist(x, bins=10)
axes[0].axvline(x=x_bar, color="darkorange")
axes[0].text(x_bar + 0.1, n*0.08, r"$\bar{X}$"+f"={x_bar:.1f}", color="darkorange", horizontalalignment="left")


# Z and Standard Normal Dist
z = np.linspace(-4, 4, 300)
y = norm.pdf(z)
axes[1].set(title="Standard Normal Distribution", xlabel="Z", xlim=(-4, 4))
axes[1].plot(z, y, color="dimgray")
axes[1].axhline(y=0, color="dimgray", linewidth=1)
alpha = 0.05 / 2
for a in [alpha, (1 - alpha)]:
    z_ = norm.ppf(a)
    axes[1].axvline(x=z_, color="steelblue")
    if z_ < 0:
        axes[1].text(z_ - 0.1, norm.pdf(z_) + 0.01, r"$Z_{\alpha/2}$", color="steelblue", horizontalalignment="right")
        axes[1].fill_between(z, 0, y, where = z <= z_, color="steelblue")
    else:
        axes[1].text(z_ + 0.1, norm.pdf(z_) + 0.01, r"$Z_{1-(\alpha/2)}$", color="steelblue", horizontalalignment="left")
        axes[1].fill_between(z, 0, y, where = z >= z_, color="steelblue")

is_accept = np.abs(z) <= norm.ppf(a)
axes[1].fill_between(z[is_accept], 0, y[is_accept], color="honeydew")
axes[1].text(0, norm.pdf(0) * 0.3, "Coverage Probability\n$P(\mu \in [L, U])$", color="green", horizontalalignment="center")


# Confidence interval
xlim = (x.min(), x.max())
x_space = np.linspace(xlim, 300)
y = norm.pdf(x_space)
axes[2].set(title="Confidence Interval", xlabel=r"$\mu$", xlim=xlim)
axes[2].axhline(y=0, color="dimgray", linewidth=1)

alpha = 0.05 / 2
for a in [alpha, (1 - alpha)]:
    z_ = norm.ppf(a)
    lower_or_upper = x_bar + z_ * (sigma / np.sqrt(n))
    axes[2].axvline(x=lower_or_upper, color="steelblue")
    if z_ < 0:
        axes[2].text(lower_or_upper - 0.2, 0.1, r"$L=\bar{X} - Z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}$" + f"\n={lower_or_upper:.1f}", color="steelblue", horizontalalignment="right")
    else:
        axes[2].text(lower_or_upper + 0.2, 0.3, r"$U=\bar{X} + Z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}$" + f"\n={lower_or_upper:.1f}", color="steelblue", horizontalalignment="left")

fig.show()
../../_images/825a4a284ec35d0929a8c0ff0e6a1247148242bb3c8eaeebd3a6a8eb958349e8.png

検定#

母平均μ、母分散σ2の正規母集団についての

H0:μ=μ0 vs H1:μμ0

という検定問題について考える。

帰無仮説が正しければ、標本平均は中心極限定理により正規分布N(μ,σ2/n)に従うため、標準化したZは標準正規分布N(0,1)に従う。 なので、標準正規分布のパーセント点Zα/2と比較して

|Z|>Zα/2H0を棄却|Z|Zα/2H0を受容

となる

検定の棄却域は有意水準α、すなわち「帰無仮説H0が正しいにも関わらず誤ってH0を棄却してしまう確率」を

Pμ=μ0(|Z|>Zα/2)=α

となるようにZα/2を設定している。 (μ=μ0は帰無仮説のもとで、ということ)

逆に受容域は

Pμ=μ0(|Z|Zα/2)=1α
Hide code cell source
import numpy as np
import matplotlib.pyplot as plt
import japanize_matplotlib
from scipy.stats import norm

z = np.linspace(-4, 4, 300)
y = norm.pdf(z)

fig, ax = plt.subplots(dpi=100, figsize=[6, 3])
ax.set(title="標準正規分布", xlabel="Z", xlim=(-4, 4))
ax.plot(z, y, color="dimgray")
ax.axhline(y=0, color="dimgray", linewidth=1.5)

# 区間推定
alpha = 0.05 / 2
for a in [alpha, (1 - alpha)]:
    x = norm.ppf(a)
    ax.axvline(x=x, color="steelblue")
    if x < 0:
        ax.text(x - 0.1, norm.pdf(x) + 0.01, "$Z < Z_{a/2}$\n($H_0$ reject region)", color="steelblue", horizontalalignment="right")
        ax.fill_between(z, 0, y, where = z <= x, color="steelblue")
    else:
        ax.text(x + 0.1, norm.pdf(x) + 0.01, "$Z > Z_{a/2}$\n($H_0$ reject region)", color="steelblue", horizontalalignment="left")
        ax.fill_between(z, 0, y, where = z >= x, color="steelblue")


# 仮説検定
is_accept = np.abs(z) <= norm.ppf(a)
ax.fill_between(z[is_accept], 0, y[is_accept], color="honeydew")
ax.text(0, norm.pdf(0) * 0.3, "$|Z| \leq Z_a$\n($H_0$ acceptance region)", color="green", horizontalalignment="center")

fig.show()
../../_images/ff2a1dbcf826d611c7e0d0e79cd55d044a70e75f9366707529c7949499cc6cb2.png

まとめ#

  • 信頼区間とは、ある区間[L,U]が母数μを含む確率が1αになるような区間のこと:Pμ(μ[L,U])=1α

  • 仮説検定とは、帰無仮説のもとで確率変数Xが受容域A={XX | |Z|Zα/2}に含まれる確率をPμ=μ0(XA)=1αとして、その範囲内に統計量Tが収まるかどうかを判定したもの

参考文献#

  • 久保川達也(2017)『現代数理統計学の基礎』、p.169