OLS推定量の性質

OLS推定量の性質#

重回帰モデル#

$N$ 個のサンプルがあり、 $i$ 番目のサンプルについての回帰式を次のように表記する

Y_{i} = X_{i}^{T} β + u_{i}, i = 1, \dots, N

ここで $X_{i} \in R^{D}$ は説明変数の行列 $X \in R^{N \times D}$ を1行取り出したもので、 $Y_{i}, u_{i} \in R$ も1つのサンプルの被説明変数と誤差項である。

行列表記にすると

Y = X β + u

と表すことができる。

OLS推定量#

目的関数は残差の二乗和であるため、

\begin{array}{r} \begin{aligned} L (β) & = u^{T} u \\ = (Y - X β)^{T} (Y - X β) \\ = Y^{T} Y - Y^{T} X β - (X β)^{T} Y + (X β)^{T} X β \\ = Y^{T} Y - 2 β^{T} X^{T} Y + β^{T} X^{T} X β \end{aligned} \end{array}

である。これを微分してゼロとおくと

\frac{\partial L (β)}{\partial β} = - 2 X^{T} Y + 2 X^{T} X β = 0

となり、 $β$ について解くと

β = (X^{T} X)^{- 1} X^{T} Y

import numpy as np

x0 = np.array([1, 1, 1])
x1 = np.array([1, 2, 3])
x2 = np.array([2, 8, 9])
X = np.array([x0, x1, x2]).T
beta = np.array([3, 5, 7]) # 真のbeta
y = X @ beta

# OLS推定量
beta_hat = np.linalg.inv(X.T @ X) @ (X.T @ y)
beta_hat.round(1)

array([3., 5., 7.])

OLS推定量の別表記#

一致性や不偏性の議論のための準備として、OLS推定量を変形する。

重回帰モデル $Y = X β + u$ をOLS推定量 $\hat{β} = (X^{T} X)^{- 1} X^{T} Y$ に代入して変形すると

\begin{array}{r} \begin{aligned} \hat{β} & = (X^{T} X)^{- 1} X^{T} Y \\ = (X^{T} X)^{- 1} X^{T} (X β + u) \\ = (X^{T} X)^{- 1} X^{T} X β + (X^{T} X)^{- 1} X^{T} u \\ = β + (X^{T} X)^{- 1} X^{T} u \\ = β + {(\frac{1}{N} X^{T} X)}^{- 1} \frac{1}{N} X^{T} u \end{aligned} \end{array}

となる。

単回帰でいうと

\hat{β} = β + \frac{C o v (X, u)}{V a r (X)}

である。 $X$ に内生性がある、すなわち $C o v (X, u) \neq 0$ であると $\hat{β} \neq β$ となる

OLS推定量のバリアンス#

$\hat{β} = β + (X^{T} X)^{- 1} X^{T} u$ は $u \sim N (0, σ^{2} I)$ の仮定より、 $\hat{β} \sim N (β, σ^{2} (X^{⊤} X)^{- 1})$ となる。

よって $Var [\hat{β}] = σ^{2} (X^{⊤} X)^{- 1}$ となる

OLSの仮定

i.i.d.： $(Y, X)$ は独立同一分布に従う
外生性： $E [u | X] = 0$
異常値がない： $X, u$ は4次までのモーメントを持つ
多重共線性がない：任意の $\sum_{j = 0}^{k} a_{j}^{2} = 1$ となる $a_{0}, \dots, a_{k}$ について $E [(a_{0} + a_{1} X_{1} + \dots + a_{k} X_{k})^{2}] > 0$ が成り立つ

不偏性#

外生性#

単回帰モデル $Y = α + β X + u$ を例にとる。

外生性

説明変数 $X$ と誤差項 $u$ が

E (u | X) = 0

を満たすとき、 $X$ は外生変数であるという。

また、外生性の条件は別の表現もできる

$X$ と $u$ の直交

説明変数 $X$ が外生変数ならば、

E (u) = 0, E (X, u) = 0

さらに、共分散との関係も導出できる

$X$ と $u$ の無相関

説明変数 $X$ が外生変数ならば、

C o v (X, u) = 0

OLS推定量の不偏性#

単回帰モデル $Y = α + β X + u$ のOLS推定量 $β$ の確率極限は

plim β = β + \frac{Cov (X, u)}{Var (X)}

となる。外生性が満たされるとき $Cov (X, u) = 0$ であるため、 $plim β = β$ となり、OLS推定量は母回帰係数の不偏推定量となる。

一致性#

異常値がない（ $X, u$ は4次までのモーメントを持つ）という仮定と大数の法則により以下が成立する

\begin{array}{r} \begin{aligned} \frac{1}{N} X^{T} X & = \frac{1}{N} \sum_{i = 1}^{N} X_{i} X_{i}^{T} \overset{p}{⟶} E (X_{i} X_{i}^{T}) \\ \frac{1}{N} X^{T} u & = \frac{1}{N} \sum_{i = 1}^{N} X_{i} u_{i} \overset{p}{⟶} E (X_{i} u_{i}) = 0 \end{aligned} \end{array}

多重共線性がないという仮定により $(E (X_{i} X_{i}^{T}))^{- 1}$ が存在する

{(\frac{1}{N} X^{T} X)}^{- 1} \frac{1}{N} X^{T} u \overset{p}{⟶} 0

よって

\hat{β} \overset{p}{⟶} β

漸近正規性#

OLS推定量

\hat{β} = β + {(\frac{1}{N} X^{T} X)}^{- 1} \frac{1}{N} X^{T} u

を整理して以下の形にする

\sqrt{N} (\hat{β} - β) = {(\frac{1}{N} X^{T} X)}^{- 1} \frac{1}{\sqrt{N}} X^{T} u

$\frac{1}{\sqrt{N}} X^{T} u$ は $\frac{1}{\sqrt{N}} \sum_{i = 1}^{N} X_{i} u_{i}$ と書くことができる。OLSの仮定より

\begin{array}{r} \begin{aligned} E (X_{i} u_{i}) & = 0 \\ V a r (X_{i} u_{i}) & = E (u^{2} X_{i} X_{i}^{T}) \end{aligned} \end{array}

なので、中心極限定理により

\frac{1}{\sqrt{N}} X^{T} u = \frac{1}{\sqrt{N}} \sum_{i = 1}^{N} X_{i} u_{i} \overset{d}{⟶} N (0, E (u_{i}^{2} X_{i} X_{i}^{T}))

となる。

一致性のときに導出した

\frac{1}{N} X^{T} X \overset{p}{⟶} E (X_{i} X_{i}^{T})

を使うと、スルツキーの定理を用いて

\begin{array}{r} \begin{aligned} \sqrt{N} (\hat{β} - β) & = {(\frac{1}{N} X^{T} X)}^{- 1} \frac{1}{\sqrt{N}} X^{T} u \overset{d}{⟶} {(E (X_{i} X_{i}^{T}))}^{- 1} \times N (0, E (u_{i}^{2} X_{i} X_{i}^{T})) \\ = N (0, {(E (X_{i} X_{i}^{T}))}^{- 1} E (u_{i}^{2} X_{i} X_{i}^{T}) {(E (X_{i} X_{i}^{T}))}^{- 1}) \\ = N (0, V) \end{aligned} \end{array}

となる。

$V$ は以下のように一致推定できる

\begin{array}{r} \begin{aligned} \hat{V} & = {[\frac{1}{N} \sum_{i = 1}^{N} X_{i} X_{i}^{T}]}^{- 1} \frac{1}{N} \sum_{i = 1}^{N} {\hat{u}}_{i}^{2} X_{i} X_{i}^{T} {[\frac{1}{N} \sum_{i = 1}^{N} X_{i} X_{i}^{T}]}^{- 1} \\ = {(\frac{1}{N} X^{T} X)}^{- 1} \frac{1}{N} X^{T} \hat{U} X {(\frac{1}{N} X^{T} X)}^{- 1} \end{aligned} \end{array}

ただし、 $\hat{U}$ は対角要素に ${\hat{u}}_{1}^{2}, \dots, {\hat{u}}_{N}^{2}$ を並べた対角行列である。

バイアスとバリアンス#

最小二乗推定量はすべての線形不偏推定量の中で最もバリアンスが小さい（最良である）ことを示すガウス・マルコフの定理というものがある。

Note

ガウス・マルコフの定理各 $i$ について、

$E [ε_{i}] = 0$
$V [ε_{i}] = σ^{2} < \infty$ が共通
$i \neq j$ のとき $E [ε_{i} ε_{j}] = 0$

を満たすとき、最小二乗推定量 ${\hat{β}}_{O L S}$ はBLUEになる

不偏性#

任意のパラメータの線形結合 $θ = α^{⊤} β$ を考える。例えば $f (x_{0}) = x_{0}^{⊤} β$ がこの形である。

この最小二乗推定値は

\hat{θ} = α^{⊤} \hat{β} = α^{⊤} (X^{⊤} X)^{- 1} X^{⊤} y

で、期待値をとると

\begin{array}{r} \begin{aligned} E [\hat{θ}] & = E [α^{⊤} \hat{β}] \\ = E [α^{⊤} (X^{⊤} X)^{- 1} X^{⊤} y] \\ = E [α^{⊤} (X^{⊤} X)^{- 1} X^{⊤} (X β + ε)] \\ = α^{⊤} (X^{⊤} X)^{- 1} X^{⊤} X β + α^{⊤} (X^{⊤} X)^{- 1} X^{⊤} E [ε] \\ = α^{⊤} (X^{⊤} X)^{- 1} X^{⊤} X β \\ = α^{⊤} β \end{aligned} \end{array}

となり（※）、 $\hat{θ}$ が不偏推定量である（ $E [\hat{θ}] = θ$ ）ことがわかる。

バリアンス#

$α^{⊤} β$ に対して不偏のまた別の線形推定量 $c^{⊤} y$ があるとする。

両者の差を

\begin{array}{r} \begin{aligned} α^{⊤} \hat{β} - c^{⊤} y & = [α^{⊤} (X^{⊤} X)^{- 1} X - c^{⊤}] y \\ =: d^{⊤} y \end{aligned} \end{array}

とおく。このとき、不偏性 $E [c^{⊤} y] = α^{⊤} β$ から両者の差の期待値はゼロになるべきであり、

E [d^{⊤} y] = d^{⊤} X β = 0

が任意の $β$ について成り立たなければならないため、

d^{⊤} X = 0

が成り立つ。

次に、2つの確率変数 $X, Y$ に対し

V [X + Y] = V [X] + 2 Cov [X, Y] + V [Y]

が成り立つから、 $c^{⊤} y$ の分散は

\begin{array}{r} \begin{aligned} V [c^{⊤} y] & = V [α^{⊤} \hat{β} - d^{⊤} y] \\ = V [α^{⊤} \hat{β}] - 2 Cov [α^{⊤} (X^{⊤} X)^{- 1} X^{⊤} y, d^{⊤} y] + V [d^{⊤} y] \end{aligned} \end{array}

と表すことができる。

Cov (A, B) = E [(A - E [A]) (B - E [B])^{⊤}]

Cov (a^{⊤} y, b^{⊤} y) = E [(a^{⊤} y - E [a^{⊤} y]) (b^{⊤} y - E [b^{⊤} y])^{⊤}]

\begin{array}{r} Cov (a^{⊤} y, b^{⊤} y) = E [(a^{⊤} y - E [a^{⊤} y]) (b^{⊤} y - E [b^{⊤} y])^{⊤}] \\ = E [(a^{⊤} y - α^{⊤} β) (b^{⊤} y - E [b^{⊤} y])^{⊤}] \end{array}

次に、2つの確率変数

a^{⊤} y = \sum a_{i} y_{i}, b^{⊤} y = \sum b_{i} y_{i}

の共分散は、誤差項 $ε$ が無相関・等分散の仮定 $V [ε] = σ^{2} I$ を満たすとき、

Cov [a^{⊤} y, b^{⊤} y] = Cov [a^{⊤} ε, b^{⊤} ε] = \sum a_{i} b_{i} σ^{2} = (a^{⊤} b) σ^{2}

となることから

Cov [α^{⊤} (X^{⊤} X)^{- 1} X^{⊤} y, d^{⊤} y] = α^{⊤} (X^{⊤} X)^{- 1} X^{⊤} d \cdot σ^{2}

となり、 $d^{⊤} X = 0$ よりこれは0となる。

よって

V [c^{⊤} y] = V [α^{⊤} \hat{β}] + V [d^{⊤} y]

が成り立ち、分散は非負なので

V [c^{⊤} y] \geq V [α^{⊤} \hat{β}]

を意味する。

よって $α^{⊤} \hat{β}$ は最良線形不偏推定量BLUEである。

OLS推定の幾何学的意味#

OLS推定量

\hat{β} = (X^{⊤} X)^{- 1} X^{⊤} y

を $\hat{y} = X \hat{β}$ に代入すると

\hat{y} = \underset{P}{\underset{⏟}{X (X^{⊤} X)^{- 1} X^{⊤}}} y = P y

つまり、ベクトル $y$ を行列 $P = X (X^{⊤} X)^{- 1} X^{⊤}$ で射影したものとみなすことができる。

この行列 $P$ は対称行列で、 $P^{2} = P$ となる。この2つの性質を満たす行列を射影行列という。

\begin{array}{r} \begin{aligned} P^{2} & = P P \\ = (X (X^{⊤} X)^{- 1} X^{⊤}) (X (X^{⊤} X)^{- 1} X^{⊤}) \\ = X (X^{⊤} X)^{- 1} (X^{⊤} X) (X^{⊤} X)^{- 1} X^{⊤} \\ = X (X^{⊤} X)^{- 1} X^{⊤} = P \end{aligned} \end{array}

射影行列は、 $X$ の列空間 $ℑ X$ にベクトルを正射影するという性質がある。 $y$ の $ℑ X$ への射影が $\hat{y}$ で、垂線の足が誤差 $u$ となる。

よって、最小二乗法は $y$ から $ℑ X$ への射影を求める操作であると捉えることができる。

OLSとBLUE / BUE#

OLSはBLUEかBUEか？

行列 $A$ によって $b = A y$ のような線形結合で表現される推定量 $b$ は線形推定量という。OLSも $A = (X^{⊤} X)^{- 1} X^{⊤}$ とおけば同じ形になっていることがわかる。

OLSはガウス・マルコフの定理でBLUE（線形不偏推定量のなかで最良）だと示された。

Hansen (2022) は線形制約は不要で、線形と非線形の両方のすべての不偏推定量の中で最良（BUE）だと主張した。一方で Pötscher & Preinerstorfer (2022) はHansen (2022)に対する批判を展開した。 Portnoy (2022) は「一般線形モデルの場合、十分に広い分布族内のすべての分布に対して、不偏な推定量は線形でなければならない」と述べている。

Hansen(2022) の「OLSが最良の不偏推定量（BUE）」が正しいとしても、Portnoy (2022)によれば「一般線形モデルの不偏推定量は線形推定量」なので結局BLUE=BUEになり、いずれの主張も間違っていないことになる。

参考：

参考文献#

東京大学出版会『統計学入門』
東京大学出版会『自然科学の統計学』
Hastie, T., Tibshirani, R., Friedman, J. H., & Friedman, J. H. (2009). The elements of statistical learning: data mining, inference, and prediction (Vol. 2, pp. 1-758). New York: springer.
西山慶彦, 新谷元嗣, 川口大司, & 奥井亮. (2019). 計量経済学. Yūhikaku.

OLS推定量の性質

Contents

OLS推定量の性質#

重回帰モデル#

OLS推定量#

OLS推定量の別表記#

OLS推定量のバリアンス#

不偏性#

外生性#

OLS推定量の不偏性#

一致性#

漸近正規性#

バイアスとバリアンス#

不偏性#

バリアンス#

OLS推定の幾何学的意味#

OLSとBLUE / BUE#

参考文献#