最尤推定法に基づく正規方程式の導出

最尤推定法に基づく正規方程式の導出#

被説明変数\(\boldsymbol{y}\)を、説明変数\(\boldsymbol{X}\)と回帰係数\(\boldsymbol{\beta}\)の線形結合と誤差項\(\boldsymbol{\varepsilon}\)によって表現する線形回帰モデル

\[ \newcommand{\b}[1]{\boldsymbol{#1}} \b{y} = \b{X} \b{\beta} + \b{\varepsilon} \]

を考える。また、以下を仮定する(古典的正規回帰モデル(Classical Normal Regression Model: CNRM) の仮定)

  1. 説明変数\(\b{X}\)は非確率的である

  2. \(E[Y] = \b{X \beta}\)であり、したがって誤差項の期待値はゼロ:\(E(\b{\varepsilon}) = 0\)

  3. 誤差項の分散\(\sigma^2\)は一定(均一分散)であり、共分散はゼロ(独立性):\(Var(\b{\varepsilon}) = \sigma^2 \b{I}\)

  4. \(\b{X}\)の階数は\(k\)\(rank(\b{X}) = k\)\(\b{X^\top X}\)に逆行列が存在することの仮定)

  5. \(Y\)は正規分布に従う(正規性):\(Y \sim \mathcal{N}(\b{X\beta}, \sigma^2\b{I}), \quad \b{\varepsilon} \sim \mathcal{N}(0, \sigma^2\b{I})\)

特に3(標本がi.i.d.)と5(正規性)は最尤推定のために必要で、誤差項\(\varepsilon_i = y_i - \boldsymbol{x}_i^\top \boldsymbol{\beta}\)が従う分布型を仮定することで最尤推定が可能になる。

尤度としては、平均\(\boldsymbol{x}_i^\top \boldsymbol{\beta}\)の正規分布で観測値\(y_i\)が得られる確率\(\mathcal{N}(y_i| \boldsymbol{x}_i^\top \boldsymbol{\beta}, \sigma^2I)\)を用いて

\[ \newcommand{\b}[1]{\boldsymbol{#1}} L(\b{y}| \b{X}, \b{\beta}, \sigma) = \prod^N_{i=1} \mathcal{N}(y_i| \b{x}_i^\top \b{\beta}, \sigma^2I) \]

ただし、\(\mathcal{N}\)は正規分布

\[ \mathcal{N}(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp \left\{ - \frac{(x-\mu)^2}{2\sigma^2} \right\} , \hspace{1em} -\infty < x < \infty \]

対数尤度は

\[\begin{split} \begin{align} \ln L(\b{y}| \b{X}, \b{\beta}, \sigma) &= \sum^N_{i=1} \ln \mathcal{N}(y_i| \b{x}_i^\top \b{\beta}, \sigma^2) \\ &= - \frac{N}{2} \ln (2\pi) - \frac{N}{2} \ln \sigma^2 - \frac{1}{2\sigma^2} \sum^N_{i=1} (y_i - \b{x}_i^\top \b{\beta})^2 \end{align} \end{split}\]

回帰係数の推定#

対数尤度を\(\b{\beta}\)について微分した勾配を0と置いて解くと

\[\begin{split} \begin{align} \nabla \ln L(\b{y}| \b{X}, \b{\beta}, \sigma) &= \frac{1}{\sigma^2} \sum^N_{i=1} (y_i - \b{x}_i^\top \b{\beta})\b{x}_i^\top\\ &= \frac{1}{\sigma^2} (\sum^N_{i=1} y_i \b{x}_i^\top) - \b{\beta}^\top \frac{1}{\sigma^2} (\sum^N_{i=1} \b{x}_i \b{x}_i^\top)\\ &= \frac{1}{\sigma^2} (\b{X}^\top \b{y})^\top - \b{\beta}^\top \frac{1}{\sigma^2} \b{X}^\top \b{X}\\ &= 0\\ \to \hat{\b{\beta}} &= (\b{X}^\top \b{X})^{-1} \b{X}^\top \b{y}\\ \end{align} \end{split}\]

となり、最尤推定量と最小二乗推定量が同じ方程式になることがわかる

標準偏差\(\sigma\)の導出#

\[\begin{split} \begin{align} \frac{\partial \ln L(\b{y}| \b{X}, \b{\beta}, \sigma) }{ \partial \sigma } &= \frac{\partial}{ \partial \sigma } \left(- \frac{N}{2} \ln (2\pi) - \frac{N}{2} \ln \sigma^2 - \frac{1}{2\sigma^2} \sum^N_{i=1} (y_i - \b{x}_i^\top \b{\beta})^2 \right)\\ &= - \frac{N}{2} \frac{1}{\sigma^2} 2\sigma + \frac{4\sigma}{4\sigma^4} \sum^N_{i=1} (y_i - \b{x}_i^\top \b{\beta})^2\\ &= - \frac{N}{\sigma} + \frac{1}{\sigma^3} \sum^N_{i=1} (y_i - \b{x}_i^\top \b{\beta})^2\\ \end{align} \end{split}\]

これをゼロにする\(\sigma^2\)

\[\begin{split} \begin{align} &- \frac{N}{\sigma} + \frac{1}{\sigma^3} \sum^N_{i=1} (y_i - \b{x}_i^\top \b{\beta})^2 = 0\\ &\to \frac{N}{\sigma} = \frac{1}{\sigma^3} \sum^N_{i=1} (y_i - \b{x}_i^\top \b{\beta})^2\\ &\to \frac{\sigma^3}{\sigma} = \frac{\sigma^3}{N \sigma^3} \sum^N_{i=1} (y_i - \b{x}_i^\top \b{\beta})^2\\ &\to \sigma^2 = \frac{1}{N} \sum^N_{i=1} (y_i - \b{x}_i^\top \b{\beta})^2\\ \end{align} \end{split}\]

となる

\(\b{\beta}\)の最尤推定量 \(\hat{\b{\beta}}_{ML} = (\b{X}^\top \b{X})^{-1} \b{X}^\top \b{y}\)を代入すると

\[\begin{split} \begin{align} \hat{\sigma}^2_{ML} &= \frac{1}{N} \sum^N_{i=1} (y_i - \b{x}_i^\top \hat{\b{\beta}}_{ML})^2\\ &= \frac{ \b{\varepsilon}^\top \b{\varepsilon} }{N}\\ \end{align} \end{split}\]