誤差項と残差の違い#

誤差項は母集団レベル、残差は標本レベルの話#

  • 誤差は、母回帰関数の線形回帰モデル\(Y_i = \beta_0 + \beta_1 X_i + u_i\)の誤差項\(u_i\)

  • 残差は、標本から推定した線形回帰モデル\(Y_i = \hat{\beta}_0 + \hat{\beta}_1 X_i + e_i\)の残差\(e_i\)

「誤差」と、この章で出てきた「残差」は似ているように見えますが、異なる意味を持ちます。「誤差」は求めようとする真の回帰式から算出される値と実際のデータとの差を表します。真の回帰式はあくまでも理論的なものであるため、誤差を計算で求めることはできません。一方の「残差」は実際のデータを用いて推定された回帰式から算出される値と実際のデータとの差を表します。誤差とは異なり残差は計算で求められます。

27-4. 予測値と残差 | 統計学の時間 | 統計WEB

標本の残差は説明変数に直交する#

線形回帰モデル

\[ Y = X \beta + u \]

を想定する。ここで\(u\)は誤差項(母集団レベルでの残差)である。

OLS推定量\(\hat{\beta}\)を用いて得た(標本レベルの)残差\(\hat{u} = y - X \hat{\beta}\)には以下の関係がある。

\[\begin{split} \begin{align} \hat{u} &= y - X \beta\\ &= y - X(X^TX)^{-1}X^Ty\\ &= [I - X(X^TX)^{-1}X^T] y\\ &= M y \end{align} \end{split}\]

ここで

\[ M = I - X(X^TX)^{-1}X^Ty \]

であり、\(M\)

  1. 対称\(M^T = M\)

  2. 冪等\(M^2 = M\)

という性質をもつ(このように対称で冪等な行列を 直交射影行列 という。参考

\(M\)\(X\)と直交しており、\(MX = O= X^TM\)である。そのため\(\hat{u} = My\)\(y=X\beta + u\)を代入すると

\[ \hat{u} = M(X\beta + u) = \underbrace{MX}_{=O} \beta + Mu = Mu \]

であるため、

\[ X^T \hat{u} = X^T Mu = \boldsymbol{0} \]

となる。

モデルに定数項がある、つまり\(X\)のうちすべての要素が1となっている列\(j\)がある場合、\(\boldsymbol{0}\)\(j\)番目の要素は\(\sum_{i=1}^n x_{ij} \hat{u}_i = \sum_{i=1}^n \hat{u}_i\)、つまり残差の和は0ということになる。

\(j\)列目の説明変数\(X_j\)と残差\(\hat{u}\)の共分散\(\mathrm{Cov}(X_j, \hat{u}) = E[X_j \hat{u}] - E[X_j] E[\hat{u}]\)の標本対応は

\[\begin{split} \begin{align} \hat{\mathrm{Cov}}(X_j, \hat{u}) &= \frac{1}{n} \sum_{i=1}^n X_{ij} \hat{u}_i - \left( \frac{1}{n} \sum_{i=1}^n X_{ij} \right) \left( \frac{1}{n} \sum_{i=1}^n \hat{u}_i \right)\\ \end{align} \end{split}\]

\(\sum_{i=1}^n \hat{u}_i = 0\)であり、\(\sum_{i=1}^n X_{ij} \hat{u}_i = 0\)なので、共分散はゼロになる

→ 推定量を用いた標本レベルでの残差から説明変数の外生性を確認することはできない