一般化モーメント法
モーメント法
モーメント法 (method of moment)は統計的推定における方法の1つで、母集団におけるモーメント(母平均など)を標本におけるモーメント(標本平均など)で置き換えて推定を行う。
確率変数\(X\)の分布が\(k\)次元の未知のパラメータ\(\theta = (\theta_1, \cdots, \theta_k)\)をもつとする。このとき、
\[\begin{split}
E[m(X, \theta)]
= E
\begin{bmatrix}
m_1(X, \theta)\\
\vdots\\
m_k(X, \theta)\\
\end{bmatrix}
= 0
\end{split}\]
を満たすように\(k\)個の関数(スコア関数)\(m_1(\cdot, \cdot), \cdots, m_k(\cdot, \cdot)\)をうまく選べたとする。
モーメント法ではこの条件を解いて\(\theta\)を求めることでパラメータを推定する。
標本\(X_1,\cdots,X_n\)が得られたとき、\(\theta_j\)のモーメント推定量\(\hat{\theta}\)は
\[
\frac{1}{n} \sum_{i=1}^n m_k (X_i ; \hat{\theta})=0
\]
により定義される。
大数の法則により、i.i.d.のサンプルの標本モーメントは母集団モーメントに確率収束する、すなわち
\[
\frac{1}{n} \sum_{i=1}^n m_k (X_i ; \hat{\theta})
\xrightarrow{p} \mathrm{E}[m_k (X, \theta) ]
\]
であるため、標本モーメントを用いて推定ができる。
例:正規分布の平均と分散
正規分布\(N(\mu, \sigma^2)\)から無作為抽出された標本の平均と分散を求めたいとする。
原点のまわりの1次と2次のモーメントは
\[\begin{split}
\begin{align}
E[X] &= \mu\\
E[X^2] &= \sigma^2 + \mu^2
\end{align}
\end{split}\]
であるため、モーメント条件を
\[\begin{split}
\begin{align}
E[m_1(X_i; \mu, \sigma^2)] &= E[X_i - \mu] = 0\\
E[m_2(X_i; \mu, \sigma^2)] &= E[X_i^2 - (\sigma^2 + \mu^2)]=0
\end{align}
\end{split}\]
とおいて標本\(X_1, X_2, \cdots, X_n\)で推定することで平均と分散の推定量を得られる。
標本対応したモーメント条件
\[\begin{split}
\begin{aligned}
& \frac{1}{n} \sum_{i=1}^n (X_i - \hat{\mu}) = 0\\
& \frac{1}{n} \sum_{i=1}^n [X_i^2 - (\hat{\sigma}^2 + \hat{\mu}^2)] = 0
\end{aligned}
\end{split}\]
を解くと
\[\begin{split}
\begin{aligned}
& \frac{1}{n} \sum_{i=1}^n (X_i - \hat{\mu}) = 0\\
& \to \frac{1}{n} \sum_{i=1}^n \hat{\mu} = \frac{1}{n} \sum_{i=1}^n X_i\\
& \to \hat{\mu} = \frac{1}{n} \sum_{i=1}^n X_i\\
\\
& \frac{1}{n} \sum_{i=1}^n [X_i^2 - (\hat{\sigma}^2 + \hat{\mu}^2)] = 0\\
& \to \frac{1}{n} \sum_{i=1}^n X_i^2 = \frac{1}{n} \sum_{i=1}^n \hat{\sigma}^2 + \frac{1}{n} \sum_{i=1}^n \hat{\mu}^2\\
& \to \hat{\sigma}^2
= \frac{1}{n} \sum_{i=1}^n X_i^2 - \hat{\mu}^2\\
\end{aligned}
\end{split}\]
となり、標本平均・標本分散と一致する
例:線形回帰モデル
線形回帰モデル
\[
Y_i = X_i^T \beta + u_i
\]
のパラメータ\(\beta\)の推定を考える。ここで\(X\)と\(\beta\)は\((k \times 1)\)ベクトルとする。\(X\)は誤差項と無相関\(E[X_i u_i] = 0\)であるとする。
このモデルから\(k\)本のモーメント条件が得られる
\[
E[X_i u_i] = E[X_i (Y_i - X_i^T \beta)] = 0
\]
標本対応は
\[
\frac{1}{n} \sum^n_{i=1} X_i u_i
= \frac{1}{n} \sum^n_{i=1} X_i (Y_i - X_i^T \beta)
\]
行列表記では
\[
\frac{1}{n} X^T u
= \frac{1}{n} X^T (Y - X\beta) = 0
\]
となる。これを解くと
\[\begin{split}
\frac{1}{n} X^T Y = \frac{1}{n} X^T X\beta\\
\to \beta = (X^T X)^{-1}X^T Y
\end{split}\]
と、最小二乗法の解と一致する
::
一般化モーメント法(GMM)
未知のパラメータの数\(k\)とモーメント条件の数\(r\)が等しい(\(k = r\))場合、上記のようにモーメント法で推定が可能である。
しかし、\(k > r\)や\(k < r\)の場合はモーメント法ではパラメータをうまく推定できない。
一般化モーメント法(generalized method of moment: GMM) は\(k < r\)、すなわちモーメント条件のほうが多い場合でも推定できるようにした方法である。
モーメント条件のほうが多い場合、\(r\)本の条件式
\[\begin{split}
E[m(X, \theta)]
= E
\begin{bmatrix}
m_1(X, \theta)\\
\vdots\\
m_r(X, \theta)\\
\end{bmatrix}
\end{split}\]
が全体的に0に近くなるように
\[
\min_\theta Q_n(\theta)
=
\left[\frac{1}{N} \sum_{i=1}^N m(X_i ; \theta)\right]^{T}
W
\left[\frac{1}{N} \sum_{i=1}^N m(X_i ; \theta)\right]
\]
となるように\(\theta\)を選ぶ。ここで\(W\)はウェイト行列(weight matrix)と呼ばれる。単に\(W=I\)とすることもできるが、うまくウェイトを用いることで推定精度を向上させることができる。
この方法は 最小距離推定 (minimum distance estimation)と呼ばれる広いクラスの推定法の中の特別な場合だと解釈できるが、計量経済学ではこの方法を最初に導入したHansen (1982) に倣って 一般化モーメント法 (generalized method of moment: GMM)と呼ぶ。
この最小化問題は
\[
\left[\frac{1}{N} \sum_{i=1}^N \frac{\partial m(X_i ; \tilde{\theta})}{\partial \theta^T} \right]^{T}
W
\left[\frac{1}{N} \sum_{i=1}^N m(X_i ; \tilde{\theta})\right]
= 0
\]
を解いて求める。
ただし、
\[
\frac{\partial m(X_i ; \tilde{\theta})}{\partial \theta^{\prime}}
= \left.
\frac{\partial m(X_i ; \theta)}{\partial \theta^{\prime}}
\right|_{\theta=\tilde{\theta}}
\]
である。
一般化モーメント法と操作変数法
\[
Y = X \beta + u, \quad \text{Var}[u] = \sigma^2 I_n
\]
において、\(X\)と\(u\)は無相関ではなく\(E[X^T u] \neq 0\)であるが、操作変数の\(n\times l\)行列\(Z\)に対して\(E[Z^T u]=0\)であるとする。
\[
E[Z_i u_i] = E[Z_i (Y_i - X_i^T \beta)] = 0
\]
を直交条件にすると、標本対応は
\[
\frac{1}{n} Z^T(Y-X\beta)
\]
となる。したがって\(\beta\)のGMM推定量は
\[
\hat{\beta}_{GMM}
= \mathop{\text{arg min}}_\beta
\left[ \frac{Z^T(Y-X\beta)}{n} \right]^T
W_n
\left[ \frac{Z^T(Y-X\beta)}{n} \right]
\]
である。
ここで
\[\begin{split}
E[u] = 0\\
E[uu^T] = \sigma^2 I\\
\mathop{\text{plim}}_{n\to\infty} \frac{Z^T Z}{n} = M_{ZZ}
\end{split}\]
および特定の条件下で
\[
\frac{Z^T(Y-X\beta)}{\sqrt n}
\xrightarrow{D}
\mathcal{N}(0, \sigma^2 M_{zz})
\]
であるので
\[
W_n \xrightarrow{p}
(\sigma^2 M_{ZZ})^{-1}
\]
となる\(W_n\)をウェイト行列として用いるのが望ましい。
\[
W_n = \left(
\frac{\sigma^2 Z^T Z}{n}
\right)^{-1}
\]
を用いると
\[
\hat{\beta}_{GMM}
= \mathop{\text{arg min}}_\beta
\left[ \frac{Z^T(Y-X\beta)}{n} \right]^T
\left(
\frac{\sigma^2 Z^T Z}{n}
\right)^{-1}
\left[ \frac{Z^T(Y-X\beta)}{n} \right]
\]
であるので、この目的関数を\(\beta\)で微分してゼロとおいて解くか、公式
\[
\left[\frac{1}{N} \sum_{i=1}^N \frac{\partial m(X_i ; \tilde{\theta})}{\partial \theta^T} \right]^{T}
W
\left[\frac{1}{N} \sum_{i=1}^N m(X_i ; \tilde{\theta})\right]
= 0
\]
にあてはめ(左側のスコア関数だけ微分)した
\[
\left[ \frac{Z^TX}{n} \right]^T
\left(
\frac{\sigma^2 Z^T Z}{n}
\right)^{-1}
\left[ \frac{Z^T(Y-X\hat{\beta})}{n} \right]
=0
\]
を解くことによって推定量が得られる。
\[
\hat{\beta}_{GMM}=
(X^T Z (Z^T Z)^{-1} Z^T X)^{-1}
X^T Z (Z^T Z)^{-1}Z^T y
\]
となり、操作変数推定量(2段階最小二乗法推定量)に一致する。
操作変数の数\(l\)と説明変数の数\(k\)が等しい場合は\(Z^T X\)が正方行列となり\((Z^T X)^{-1}\)が存在するため
\[
\hat{\beta}_{GMM}= (Z^T X)^{-1}Z^T y
\]
と単純化できる
\((AB)^{-1} = B^{-1} A^{-1}\)を使った
\[\begin{split}
\begin{align}
\hat{\beta}_{GMM}
&= (X^T Z (Z^T Z)^{-1} Z^T X)^{-1}
X^T Z (Z^T Z)^{-1}Z^T y\\
&= (Z^T X)^{-1} (X^T Z (Z^T Z)^{-1})^{-1}
X^T Z (Z^T Z)^{-1}Z^T y\\
&= (Z^T X)^{-1} (Z^T Z)(X^T Z)^{-1}
X^T Z (Z^T Z)^{-1}Z^T y\\
&= (Z^T X)^{-1}Z^T y
\end{align}
\end{split}\]
一般化モーメント法と最尤推定法
最尤推定量は対数尤度の導関数をスコア関数とした
\[
E\left[
\frac{\partial \log f(Y|X; \theta)}{\partial \theta}
\right]
= 0
\]
という直交条件の下でのGMM推定量と考えることができる。
確率密度によるモーメント条件
\(Y_i\)の条件付き確率密度関数を\(f(Y_i | X_i; \theta)\)とする。確率密度関数の性質から、積分すると1になるので
\[
\int f(Y_i|X_i; \theta) dy_i = 1
\]
となる。両辺を\(\theta\)について微分すると
\[
\int \frac{\partial f(Y_i|X_i; \theta)}{\partial \theta} dy_i = 0
\]
となる。
\[\begin{split}
\begin{align}
\frac{\partial f(Y_i|X_i; \theta)}{\partial \theta}
&= \frac{\partial f(Y_i|X_i; \theta)}{\partial \theta} \frac{1}{f(Y_i|X_i; \theta)} f(Y_i|X_i; \theta)\\
&= \frac{\partial \log f(Y_i|X_i; \theta)}{\partial \theta} f(Y_i|X_i; \theta)
\end{align}
\end{split}\]
という関係を用いて
\[
\int \frac{\partial \log f(Y_i|X_i; \theta)}{\partial \theta}
f(Y_i|X_i; \theta) dy_i = 0
\]
とすることができる。
スコア関数を
\[
m(X_i, \theta) = \frac{\partial \log f(Y_i|X_i; \theta)}{\partial \theta}
\]
とおけば、
\[
\int m(X_i, \theta) f(Y_i|X_i; \theta) dy_i = 0
\]
となり、これは条件付き確率\(f(Y_i|X_i; \theta)\)による条件付き期待値
\[
E[m(X_i, \theta)\mid X_i] = 0
\]
となっている。繰り返し期待値の法則により
\[
E[m(X_i, \theta)] = 0
\]
であるから、この式を直交条件として用いることができる。
モーメント推定量と最尤推定量
モーメント法では標本モーメント条件
\[
\frac{1}{n}\sum^n_{i=1}
\frac{\partial \log f(Y_i|X_i; \theta)}{\partial \theta}
= 0
\]
を解く。
最尤推定法では対数尤度関数の最大化において
\[
\sum^n_{i=1} \frac{\partial \log f(Y_i|X_i; \theta)}{\partial \theta}
= 0
\]
を解くため、GMM推定量と最尤推定量は一致する。
例:線形回帰モデル
線形回帰モデル
\[
y=X \beta+\boldsymbol{u},
\quad (\mathrm{E}[\boldsymbol{u}]=\mathbf{0}, \mathrm{V}[\boldsymbol{u}]=\sigma^2 \boldsymbol{I}_n)
\]
を考える(簡単のため\(\sigma^2\)は既知とする)
誤差が正規分布に従うと仮定して尤度関数を特定化する場合、
\[
L(\boldsymbol{\beta} ; \boldsymbol{y})=\prod_{i=1}^n f\left(y_i \mid \boldsymbol{X}_i ; \boldsymbol{\beta}\right)
=\prod_{i=1}^n \frac{1}{\sqrt{2 \pi} \sigma} \exp \left[-\frac{\left(y_i-\boldsymbol{X}_i^T \boldsymbol{\beta}\right)^2}{2 \sigma^2}\right]
\]
対数尤度の導関数をスコア関数とすると
\[
\boldsymbol{m}\left(y_i, \boldsymbol{X}_i ; \boldsymbol{\beta}\right)
=
\frac{\partial \log f\left(y_i \mid \boldsymbol{X}_i ; \boldsymbol{\beta}\right)}{\partial \boldsymbol{\beta}}
=\frac{\left(y_i-\boldsymbol{X}_i^T \boldsymbol{\beta}\right) \boldsymbol{X}_i}{\sigma^2}
\]
なので、この直交条件は\(\mathrm{E}[\boldsymbol{u}_i \boldsymbol{X}_i]=\mathbf{0}\)を意味する。
(※前述のように、この直交条件は\(u_i\)が正規分布に従うと仮定しなくても使えるし\(\beta\)の一致推定量を得られる)
このスコア関数の標本対応は
\[
\frac{1}{n} \sum^n_{i=1}
\frac{(y_i-\boldsymbol{X}_i^T \boldsymbol{\beta}) \boldsymbol{X}_i}{\sigma^2}
= \frac{1}{n \sigma^2} \boldsymbol{X}^T (y - \boldsymbol{X} \boldsymbol{\beta}) = 0
\]
であり、これを解くと\(\beta = (X^T X)^{-1}X^T Y\)となる