OLSの検定・区間推定#

OLS推定量の標準誤差#

ある推定量の漸近分布(asymptotic distribution、大標本において推定量が近似的に従う分布)の標準偏差を標準誤差(standard error)という。

重回帰モデル

y=β0+β1x1++βdxd+ε

において、各k=0,1,,dについて、回帰係数βkのOLS推定量β^kは、中心極限定理により十分大きなnのもとで

Z=n(β^kβk)s

が近似的に標準正規分布N(0,1)に従う。

ここでsは標本標準偏差に相当するもの。

上記の式は書き換えると

β^k=βk+snZ

となる。ここで

σ=sn

とおけば、β^kは平均βk、分散σ2の正規分布N(βk,σ2)に従うということになる。

別の定義では、残差をu^とするとβ^1の分散は

σ^β^12=1n1n2i=1n(xix¯)2u^i2[1ni=1n(xix¯)2]2

で、SE(β^1)=σ^β^12となる

誤差項εiの分散σ2が既知かつ均一分散のとき

Var[β^]=σ2(XiX¯)2

分散が既知かつ不均一分散のとき

Var[β^]het=(XiX¯)2σi2[(XiX¯)2]2

(『統計的因果推論の理論と実装』p.118)

b = 1
np.exp(b) - 1
1.718281828459045
model.summary()
OLS Regression Results
Dep. Variable: y R-squared: 0.675
Model: OLS Adj. R-squared: 0.674
Method: Least Squares F-statistic: 619.8
Date: Fri, 04 Apr 2025 Prob (F-statistic): 9.04e-75
Time: 10:54:42 Log-Likelihood: -422.93
No. Observations: 300 AIC: 849.9
Df Residuals: 298 BIC: 857.3
Df Model: 1
Covariance Type: nonrobust
coef std err t P>|t| [0.025 0.975]
Intercept 10.0882 0.117 86.551 0.000 9.859 10.318
x 4.9289 0.198 24.896 0.000 4.539 5.318
Omnibus: 1.176 Durbin-Watson: 2.115
Prob(Omnibus): 0.555 Jarque-Bera (JB): 1.153
Skew: -0.033 Prob(JB): 0.562
Kurtosis: 2.703 Cond. No. 4.42


Notes:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
# CI
ci = (
    beta1 - 1.96 * se_beta1,
    beta1 + 1.96 * se_beta1
)
fig, ax = plt.subplots()
x_plot = np.linspace(4, 6, 50)
y_plot = norm.pdf(x=x_plot, loc=beta1, scale=se_beta1)
ax.plot(x_plot, y_plot, alpha=.5)
ax.axvline(ci[0])
ax.axvline(ci[1])
<matplotlib.lines.Line2D at 0x7f1a7b0202e0>
../../_images/b85f43e5fb694cb916c49c8d10ef47de749a2325afcb50c81add721e3ad45956.png

Note

データによる例

例えば次のように生成されたデータがあるとする。

y=10+5x+exUniform(0,1)eN(0,1)

シミュレーションによって(データを生成して推定することを繰り返すことによって)この分布を見てみる

../../_images/6538f9f2c103f99da0b527650370bdcee47dde32613225185cb8cb5914917fc2.png

OLS推定量のt検定#

帰無仮説と対立仮説をそれぞれ

H0:βk=0H1:βk0

とする。t統計量を

t=β^kσ=nsβ^k

と定義すると、これは標準正規分布N(0,1)に従う。|t|>1.96となればその確率は5%以下であるため有意水準5%で帰無仮説を棄却できる。

t検定のp#

帰無仮説H0:βk=0を棄却するためには有意水準をどこまで引き上げなければいけないかを考える。

N(0,1)に従うZを用いて、P(|Z|>|t|)を計算する

OLS推定量の信頼区間#

β^kの漸近分布がN(βk,σk2)に従うとする。nが十分に大きいときは、

Zk=β^kβkσk

N(0,1)に従うものとみなすことができて、

P(|Zk|1.96)=P(1.96β^kβkσk1.96)=0.95

と近似できる。そこから95%信頼区間は

β^k1.96σkβkβ^k+1.96σk

となる

回帰の標準誤差#

回帰の標準誤差(standard error of the regression: SER)は、回帰誤差εの標準偏差の推定量

SER=su^, su^=1nd1i=1nu^i2

u^の平均はゼロであるため、通常の分散の式における平均で引くような項が存在していない)

ここでdは推定している傾きのパラメータ数(定数項も含めればd+1)。下方バイアスが生じることがわかっているので自由度のぶんだけ修正する。