欠落変数バイアス#
線形回帰モデルに含めるべき説明変数を含めず、外生性の仮定が満たされない場合に生じるバイアスのことを 欠落変数バイアス(omitted variable bias) という。
背景#
外生性#
単回帰モデル\(Y = \alpha + \beta X + u\)を例にとる。
外生性
説明変数\(X\)と誤差項\(u\)が
を満たすとき、\(X\)は外生変数であるという。
また、\(X\)が外生変数であるならば、
と、説明変数\(X\)と誤差項\(u\)の無相関
が成り立つ
証明
OLS推定量の一致性#
単回帰モデル \(Y=\alpha+\beta X+u\) は両辺を\(X\)と共分散をとると
傾き係数のOLS推定量に代入すると
という形に整理できる。
\(X\)が外生変数のとき、\(\operatorname{Cov}(X, u) = 0\)より
となり、OLS推定量\(\hat{\beta}\)と真のパラメータ\(\beta\)は一致する。
欠落変数バイアス#
単回帰モデル
を構築することを考える。
説明変数は\(X\)のみであるため、それ以外の\(Y\)の変動は\(u\)に含まれることになる。
もし、真のデータ生成過程において、変数\(Z\)があり真の誤差が\(v\)で
のようになっていたとすると、単回帰モデルの誤差項\(u\)には\(\theta Z\)が含まれていることになる。
もし\(Z\)が\(Y\)に影響を与えているだけでなく、\(X\)にも影響を与えている(=\(Z\)は交絡因子)であるとすると、\(X\)は外生性を満たさない
ということになる。そうなるとOLS推定量
は
の項が消えないため、その分だけ真のパラメータ\(\beta\)からずれることになる
数値例#
人工データを生成し、欠落変数バイアスが \(\frac{\operatorname{Cov}(X, u)}{\operatorname{Var}(X)}\) であることを確認する
| quantity | value | |
|---|---|---|
| 0 | β (true) | 2.000 |
| 1 | β_hat_omit (Y~X) | 3.394 |
| 2 | β_hat_full (Y~X+Z) | 1.964 |
| 3 | Bias (β_hat_omit − β) | 1.394 |
| 4 | Cov(X,u) / Var(X) | 1.394 |
参考文献#
安井翔太. (2020). 効果検証入門: 正しい比較のための因果推論 計量経済学の基礎. Gijutsu hyōronsha.
星野匡郎, 田中久稔, & 北川梨津. (2023). R による実証分析: 回帰分析から因果分析へ. 株式会社 オーム社.