OLS推定量の性質#

重回帰モデル#

N個のサンプルがあり、i番目のサンプルについての回帰式を次のように表記する

Yi=XiTβ+ui,i=1,,N

ここでXiRDは説明変数の行列XRN×Dを1行取り出したもので、Yi,uiRも1つのサンプルの被説明変数と誤差項である。

行列表記にすると

Y=Xβ+u

と表すことができる。

OLS推定量#

目的関数は残差の二乗和であるため、

L(β)=uTu=(YXβ)T(YXβ)=YTYYTXβ(Xβ)TY+(Xβ)TXβ=YTY2βTXTY+βTXTXβ

である。これを微分してゼロとおくと

L(β)β=2XTY+2XTXβ=0

となり、βについて解くと

β=(XTX)1XTY
import numpy as np

x0 = np.array([1, 1, 1])
x1 = np.array([1, 2, 3])
x2 = np.array([2, 8, 9])
X = np.array([x0, x1, x2]).T
beta = np.array([3, 5, 7]) # 真のbeta
y = X @ beta

# OLS推定量
beta_hat = np.linalg.inv(X.T @ X) @ (X.T @ y)
beta_hat.round(1)
array([3., 5., 7.])

OLS推定量の別表記#

一致性や不偏性の議論のための準備として、OLS推定量を変形する。

重回帰モデルY=Xβ+uをOLS推定量β^=(XTX)1XTYに代入して変形すると

β^=(XTX)1XTY=(XTX)1XT(Xβ+u)=(XTX)1XTXβ+(XTX)1XTu=β+(XTX)1XTu=β+(1NXTX)11NXTu

となる。

単回帰でいうと

β^=β+Cov(X,u)Var(X)

である。Xに内生性がある、すなわちCov(X,u)0であるとβ^βとなる

OLS推定量のバリアンス#

β^=β+(XTX)1XTuuN(0,σ2I)の仮定より、β^N(β,σ2(XX)1)となる。

よって Var[β^]=σ2(XX)1 となる

証明

以下の定理を使う

定理

uを確率変数ベクトルとし、μRnbRpCRp×nrankC=pとする。

uN(μ,Σ) のとき、Cu+bN(Cμ+b,CΣC)

C:=(XTX)1XTとおけば

CT=[(XTX)1XT]T=X[(XTX)1]T((AB)T=BTAT)=X[(XTX)T]1((A1)T=(AT)1)=X(XTX)1((XTX)T=XTX)

であるため、uN(0,σ2I) の仮定が満たされるとき、

β+CuN(β,σ2CCT)=β+(XTX)1XTuN(β,σ2(XTX)1XTX(XTX)1)=β+(XTX)1XTuN(β,σ2(XTX)1)

OLSの仮定

  1. i.i.d.:(Y,X)は独立同一分布に従う

  2. 外生性:E[u|X]=0

  3. 異常値がない:X,uは4次までのモーメントを持つ

  4. 多重共線性がない:任意のj=0kaj2=1となるa0,,akについてE[(a0+a1X1++akXk)2]>0が成り立つ

不偏性#

外生性#

単回帰モデルY=α+βX+uを例にとる。

外生性

説明変数Xと誤差項u

E(u|X)=0

を満たすとき、Xは外生変数であるという。

また、外生性の条件は別の表現もできる

Xuの直交

説明変数Xが外生変数ならば、

E(u)=0,E(X,u)=0
証明
E(Xu)=EX[E(Xu|X)]=EX[XE(u|X)=0]=EX(X0)=0E(u)=EX[E(u|X)=0]=0

さらに、共分散との関係も導出できる

Xuの無相関

説明変数Xが外生変数ならば、

Cov(X,u)=0
証明
Cov(X,u)=E(Xu)=0E(X)E(u)=0=0

OLS推定量の不偏性#

単回帰モデルY=α+βX+uのOLS推定量βの確率極限は

plimβ=β+Cov(X,u)Var(X)

となる。外生性が満たされるときCov(X,u)=0であるため、plimβ=βとなり、OLS推定量は母回帰係数の不偏推定量となる。

証明
plimβ=Cov(X,Y)Var(X)=Cov(X,α+βX+u)Var(X)=Cov(X,α)+Cov(X,βX)+Cov(X,u)Var(X)=βVar(X)+Cov(X,u)Var(X)=β+Cov(X,u)Var(X)

標本値、確率変数の和は、加える前の個々の共分散の和になる。すなわち、共分散においては分配法則が成り立つ。

Cov(X+Z,Y)=Cov(X,Y)+Cov(Z,Y)

参考:確率統計 – 分散と共分散 – TauStation

(参考)共分散と定数

α,βは定数と考えると、

Cov(X,α)=E(Xα)E(X)E(α)=αE(X)αE(X)=0

であり

Cov(X,βX)=E(XβX)E(X)E(βX)=βE(X2)βE(X)2=βVar(X)

一致性#

異常値がない(X,uは4次までのモーメントを持つ)という仮定と大数の法則により以下が成立する

1NXTX=1Ni=1NXiXiTpE(XiXiT)1NXTu=1Ni=1NXiuipE(Xiui)=0

多重共線性がないという仮定により(E(XiXiT))1が存在する

(1NXTX)11NXTup0

よって

β^pβ

漸近正規性#

OLS推定量

β^=β+(1NXTX)11NXTu

を整理して以下の形にする

N(β^β)=(1NXTX)11NXTu

1NXTu1Ni=1NXiuiと書くことができる。OLSの仮定より

E(Xiui)=0Var(Xiui)=E(u2XiXiT)

なので、中心極限定理により

1NXTu=1Ni=1NXiuidN(0,E(ui2XiXiT))

となる。

一致性のときに導出した

1NXTXpE(XiXiT)

を使うと、スルツキーの定理を用いて

N(β^β)=(1NXTX)11NXTud(E(XiXiT))1×N(0,E(ui2XiXiT))=N(0,(E(XiXiT))1E(ui2XiXiT)(E(XiXiT))1)=N(0,V)

となる。

スルツキーの定理

確率変数の行列YN,Y,XN,XRN×N、正則行列CRN×Nがあるとする。

Nのとき

XNdXYNdC

とする。

このとき、以下の結果が成り立ち、これを スルツキーの定理 という

  1. XN+YNdX+C

  2. YNXNdCX

  3. YN1XNdC1X

Vは以下のように一致推定できる

V^=[1Ni=1NXiXiT]11Ni=1Nu^i2XiXiT[1Ni=1NXiXiT]1=(1NXTX)11NXTU^X(1NXTX)1

ただし、U^は対角要素にu^12,,u^N2を並べた対角行列である。

バイアスとバリアンス#

最小二乗推定量はすべての線形不偏推定量の中で最もバリアンスが小さい(最良である)ことを示すガウス・マルコフの定理というものがある。

Note

ガウス・マルコフの定理 各iについて、

  • E[εi]=0

  • V[εi]=σ2< が共通

  • ijのときE[εiεj]=0

を満たすとき、最小二乗推定量β^OLSはBLUEになる

不偏性#

任意のパラメータの線形結合θ=αβを考える。例えばf(x0)=x0βがこの形である。

この最小二乗推定値は

θ^=αβ^=α(XX)1Xy

で、期待値をとると

E[θ^]=E[αβ^]=E[α(XX)1Xy]=E[α(XX)1X(Xβ+ε)]=α(XX)1XXβ+α(XX)1XE[ε]=α(XX)1XXβ=αβ

となり(※)、θ^が不偏推定量である(E[θ^]=θ)ことがわかる。

バリアンス#

αβに対して不偏のまた別の線形推定量cyがあるとする。

両者の差を

αβ^cy=[α(XX)1Xc]y=:dy

とおく。このとき、不偏性E[cy]=αβから両者の差の期待値はゼロになるべきであり、

E[dy]=dXβ=0

が任意のβについて成り立たなければならないため、

dX=0

が成り立つ。

次に、2つの確率変数X,Yに対し

V[X+Y]=V[X]+2Cov[X,Y]+V[Y]

が成り立つから、cyの分散は

V[cy]=V[αβ^dy]=V[αβ^]2Cov[α(XX)1Xy,dy]+V[dy]

と表すことができる。

Cov(A,B)=E[(AE[A])(BE[B])]
Cov(ay,by)=E[(ayE[ay])(byE[by])]
Cov(ay,by)=E[(ayE[ay])(byE[by])]=E[(ayαβ)(byE[by])]

次に、2つの確率変数

ay=aiyi,by=biyi

の共分散は、誤差項εが無相関・等分散の仮定V[ε]=σ2Iを満たすとき、

Cov[ay,by]=Cov[aε,bε]=aibiσ2=(ab)σ2

となることから

Cov[α(XX)1Xy,dy]=α(XX)1Xdσ2

となり、dX=0よりこれは0となる。

よって

V[cy]=V[αβ^]+V[dy]

が成り立ち、分散は非負なので

V[cy]V[αβ^]

を意味する。

よってαβ^は最良線形不偏推定量BLUEである。

OLS推定の幾何学的意味#

OLS推定量

β^=(XX)1Xy

y^=Xβ^に代入すると

y^=X(XX)1XPy=Py

つまり、ベクトルyを行列P=X(XX)1Xで射影したものとみなすことができる。

この行列Pは対称行列で、P2=Pとなる。この2つの性質を満たす行列を射影行列という。

P2=PP=(X(XX)1X)(X(XX)1X)=X(XX)1(XX)(XX)1X=X(XX)1X=P

射影行列は、Xの列空間Xにベクトルを正射影するという性質がある。yXへの射影がy^で、垂線の足が誤差uとなる。

よって、最小二乗法はyからXへの射影を求める操作であると捉えることができる。

OLSとBLUE / BUE#

OLSはBLUEかBUEか?

行列Aによってb=Ayのような線形結合で表現される推定量bは線形推定量という。OLSもA=(XX)1Xとおけば同じ形になっていることがわかる。

OLSはガウス・マルコフの定理でBLUE(線形不偏推定量のなかで最良)だと示された。

Hansen (2022) は線形制約は不要で、線形と非線形の両方のすべての不偏推定量の中で最良(BUE)だと主張した。 一方で Pötscher & Preinerstorfer (2022) はHansen (2022)に対する批判を展開した。 Portnoy (2022) は「一般線形モデルの場合、十分に広い分布族内のすべての分布に対して、不偏な推定量は線形でなければならない」と述べている。

Hansen(2022) の「OLSが最良の不偏推定量(BUE)」が正しいとしても、Portnoy (2022)によれば「一般線形モデルの不偏推定量は線形推定量」なので結局BLUE=BUEになり、いずれの主張も間違っていないことになる。

参考:

参考文献#