概要#
一般化線形モデル(generalized linear model: GLM)は誤差項が正規分布以外の分布に従う場合の正規分布も扱うことができる統計モデリングの理論体系である。
例えば二項分布であればロジスティック回帰、ポアソン分布であればポアソン回帰といったものが存在する。
3つの構成要素#
一般化線形モデルは
変量成分
系統的成分
リンク関数
の3つから構成される
変量成分#
変量成分(random component)は、目的変数\(Y_i\ (i=1,2,\dots,n)\)が従う確率分布を仮定する。
通常の回帰分析であれば正規分布を仮定する(\(Y_i \sim N(\mu_i, \sigma^2)\))。
目的変数の値が「成功」「失敗」のような二値や「成功」の回数である場合、変量成分は二項分布となる
系統的成分#
系統的成分(systematic component)は、目的変数を説明する成分を表す。
\[
\beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_m X_{mi}
\]
リンク関数#
リンク関数(link function)は、目的変数の期待値と系統成分との関係を表す。
\[
g(\mu_i) = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_m X_{mi}
\]
恒等リンク#
例えば通常の回帰分析では恒等リンク(identity link)\(g(\mu_i) = \mu_i\)を使っているため
\[
\mu_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_m X_{mi}
\]
となる。
対数リンク#
ロジスティック回帰では対数リンク(log link)\(g(\mu_i) = \log(\mu_i)\)を使っているため
\[
\log(\mu_i) = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_m X_{mi}
\]
となり、両辺の指数を取ると
\[
\mu_i = \exp(\beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_m X_{mi})
\]
となって期待値が正の値をとるようになる。そのためポアソン回帰モデルでも対数リンクを用いる。
参考文献#
本橋永至(2015)『Rで学ぶ統計データ分析』、オーム社。