モデルの評価

モデルの評価#

全体的評価（モデルの適合度の評価）#

カイ2乗検定#

最尤法で母数を推定した場合、 $χ^{2}$ 検定を行うことができる。

標本数が十分に大きいとき、

χ^{2} = f_{M L} \times (N - 1)

は自由度 $d f = \frac{1}{2} p (p + 1) - q$ の $χ^{2}$ 分布に近似的に従う（ $p$ は観測変数の数、 $q$ は自由母数の数）

「構成されたモデルは正しい」という帰無仮説のもとで検定を行う。

ただし、サンプル数が大きいほど棄却されやすくなる（「モデルが正しいとはいえない」という結果になる）ため、あまり信頼性のない方法

カイ2乗検定の結果は直接使わないが、カイ2乗値を使う別の指標があることもあって統計ソフトでもいまだに計算される

CFI（comparative fit index）#

独立モデル（independent model）と呼ばれる最も単純なモデルと比較し、そこからモデルとデータの乖離がどれだけ改善されたかを測る
独立モデルは観測変数間に一切パスを引かないモデル

C F I = 1 - \frac{χ_{分 析 モ デ ル}^{2} - d f_{分 析 モ デ ル}}{χ_{独 立 モ デ ル}^{2} - d f_{独 立 モ デ ル}}

独立モデルの自由度は

\begin{array}{r} \begin{aligned} χ_{独 立 モ デ ル}^{2} & = tr (diag (S)^{- 1} S) - \log | (diag (S))^{- 1} S | - p \\ = p - \log | (diag (S))^{- 1} S | - p \\ = - \log | (diag (S))^{- 1} S | \\ d f_{独 立 モ デ ル} & = \frac{1}{2} p (p - 1) \end{aligned} \end{array}

似たものでNFIやTLI（NNFI）もある

N F I = \frac{χ_{独 立 モ デ ル}^{2} - χ_{分 析 モ デ ル}^{2}}{χ_{独 立 モ デ ル}^{2}} = 1 - \frac{χ_{分 析 モ デ ル}^{2}}{χ_{独 立 モ デ ル}^{2}}

NFIの $χ^{2}$ の部分を $χ^{2} - d f$ にしたものがCFI
NFIの $χ^{2}$ の部分を $χ^{2} / d f$ にして分母から1を引いたものがTLI

T L I = \frac{(χ_{独 立 モ デ ル}^{2} / d f_{独 立 モ デ ル}) - (χ_{分 析 モ デ ル}^{2} / d f_{分 析 モ デ ル})}{(χ_{独 立 モ デ ル}^{2} / d f_{独 立 モ デ ル}) - 1}

RMSEA（root mean square error of approximation）#

モデルの分布と真の分布との乖離度を1自由度あたりの値として評価する

R M S E A = \sqrt{max (\frac{χ^{2}}{d f \times n} - \frac{1}{n}, 0)}

RMSEAは0.05以下であれば当てはまりがよく、0.1以上であれば当てはまりがわるいと判断する慣習がある。

情報量基準#

\begin{array}{r} \begin{aligned} A I C & = χ^{2} - 2 \times d f \\ B I C & = χ^{2} - \log (n) \times d f \end{aligned} \end{array}

GFI（goodness of fit index）#

実測値の分散 $S$ を予測値の分散 $Σ$ で説明できた比率を表す。回帰分析における決定係数に相当する。

G F I = 1 - \frac{tr ([Σ (\hat{θ})^{- 1} (S - Σ (\hat{θ}))]^{2})}{tr ([Σ (\hat{θ})^{- 1} S]^{2})} = 1 - \frac{tr ([Σ (\hat{θ})^{- 1} S - I]^{2})}{tr ([Σ (\hat{θ})^{- 1} S]^{2})}

長所：標本数にあまり影響を受けない
短所：モデルの自由度が大きくなると、値が大きくなりにくくなる → 複雑なモデルを作ったほうが有利になってしまう

AGFI（adjusted goodness of fit index）#

A G F I = 1 - \frac{p (p + 1)}{2 d f} (1 - G F I)

GFIの自由度のバイアスを補正したもの。回帰分析における自由度調整済み決定係数に相当する。
$A G F I \leq G F I$ という関係がある
GFIが0.95以上であれば当てはまりが良いとされる（0.9という基準では誤ったモデルを採択する頻度が結構高いらしい, 星野ほか (2005)）

RMR（root mean square residual）#

実測値の分散と予測値の分散の二乗誤差を測る。機械学習におけるRMSE（root mean squared error）に相当する

R M R = \sqrt{\frac{2}{p (p + 1)} \sum_{j = 1}^{p} \sum_{l = 1}^{j} (s_{j l} - {\hat{σ}}_{j l})^{2}}

SRMR（standardized root mean square residual）#

単位の影響を除くために正規化したもの。

S R M R = \sqrt{\frac{2}{p (p + 1)} \sum_{j = 1}^{p} \sum_{l = 1}^{j} {(\frac{s_{j l}}{\sqrt{s_{j j} - s_{l l}}} - \frac{{\hat{σ}}_{j l}}{\sqrt{{\hat{σ}}_{j j} - {\hat{σ}}_{l l}}})}^{2}}

部分的評価（母数の推定値の評価）#

$z$ 検定#

「母数の真の値は0である」という帰無仮説のもとで、

z = \frac{推 定 値}{標 準 誤 差}

は $d f = 観測変数の数 n - 自由母数の数 q$ の $z$ 分布（標準正規分布）に従う

標準化残差による観測変数の評価#

残 差 行 列 = S - \hat{Σ}

残差行列の各要素の大きさ（絶対値）を確認することで、大きな残差になってい部分はモデルが標本共分散行列をうまく説明できていないことがわかる

実際には標準化した残差を用いる

\frac{s_{j l} - {\hat{σ}}_{j l}}{\sqrt{(s_{j j} s_{l l} + s_{j l}^{2}) / n}}

決定係数#

各変数によって説明された分散の割合

参考文献#

星野崇宏, 岡田謙介, & 前田忠彦. (2005). 構造方程式モデリングにおける適合度指標とモデル改善について: 展望とシミュレーション研究による新たな知見. 行動計量学, 32(2), 209-235.