プロビットモデル#

概要#

プロビットモデルは二値変数の従属変数\(y_i\in\{0,1\}\)に対するモデルで、例えば「ある商品が購入される確率」のような問題で使われる。 また、観測される従属変数 \(y_i\) の背後には連続的な潜在変数 \(y_i^*\) が存在すると仮定する。

ロジスティック回帰モデルとの違い

ロジットモデル(ロジスティック回帰)よりも複雑で計算量は多いが、「無関係な選択肢からの独立性」という性質を満たす、ロジットモデルより妥当なモデルが構築できるのが強み。

ロジットモデルは誤差項がロジスティック分布に従うと仮定するのに対し、プロビットモデルは標準正規分布を仮定する点が異なる。確率の増加パターンは類似するが、ロジスティック分布のほうが裾がやや厚い特性を持つ。

プロビットモデルは、選択の発生確率を推定する際や、経済学・政治学・マーケティングなどにおける二値選択データ分析に広く用いられる。

プロビットモデル#

潜在変数モデルは以下のように表される。

\[ y_i^* = \mathbf{x}_i^\top \beta + \varepsilon_i \]

ここで、\(\mathbf{x}_i\) は説明変数ベクトル、\(\beta\) はパラメータベクトル、\(\varepsilon_i\) は誤差項であり、平均 \(0\)、分散 \(1\) の標準正規分布 \(N(0,1)\) に従うと仮定する。

観測される二値変数 \(y_i\) は以下のように定義される。

\[\begin{split} y_i = \begin{cases} 1 & \text{if } y_i^* > 0 \\ 0 & \text{otherwise} \end{cases} \end{split}\]

確率の表現#

誤差項が標準正規分布に従うため、\(y_i = 1\) となる確率は標準正規分布の累積分布関数 \(\Phi(\cdot)\) を用いて次のように表される。

\[ P(y_i = 1 \mid \mathbf{x}_i) = \Phi(\mathbf{x}_i^\top \beta) \]

同様に、\(y_i = 0\) となる確率は

\[ P(y_i = 0 \mid \mathbf{x}_i) = 1 - \Phi(\mathbf{x}_i^\top \beta) \]

となる。

推定方法#

パラメータ \(\beta\) は最尤法により推定される。尤度関数は以下のように表される。

\[ L(\beta) = \prod_{i=1}^n \left[ \Phi(\mathbf{x}_i^\top \beta) \right]^{y_i} \left[ 1 - \Phi(\mathbf{x}_i^\top \beta) \right]^{1 - y_i} \]

対数尤度を最大化することにより推定値を得る。

多項プロビットモデル#

多項プロビットモデル(Multinomial Probit Model)とは、選択肢が3つ以上あるカテゴリカルな従属変数を説明するための離散選択モデルである。二値選択を扱うプロビットモデルを拡張し、複数の選択肢に対応させたものである。

モデルの構造#

選択肢集合を \(j = 1, 2, \dots, J\) とする。個体 \(i\) が選択肢 \(j\) を選ぶときの潜在効用 \(U_{ij}\) を以下のように定義する。

\[ U_{ij} = \mathbf{x}_{ij}^\top \beta_j + \varepsilon_{ij} \]
  • \(\mathbf{x}_{ij}\) は個体 \(i\) と選択肢 \(j\) に関する説明変数ベクトルである。

  • \(\beta_j\) は選択肢 \(j\) に固有のパラメータベクトルである。

  • \(\varepsilon_{ij}\) は誤差項であり、多変量正規分布に従うと仮定する。

個体 \(i\) が選択肢 \(j\) を選ぶのは、その選択肢の効用が他のすべての選択肢よりも大きい場合である。

\[ y_i = j \quad \text{if} \quad U_{ij} > U_{ik} \quad \forall k \neq j \]

分布の仮定#

誤差ベクトル

\[ \boldsymbol{\varepsilon}_i = (\varepsilon_{i1}, \varepsilon_{i2}, \dots, \varepsilon_{iJ}) \]

は平均ゼロ、分散共分散行列 \(\Sigma\) を持つ多変量正規分布に従うと仮定する。

\[ \boldsymbol{\varepsilon}_i \sim N(\mathbf{0}, \Sigma) \]

このとき、確率の計算には多変量正規分布の累積分布関数が必要となる。

確率の表現#

個体 \(i\) が選択肢 \(j\) を選ぶ確率は次のように表される。

\[ P(y_i = j) = P\left( U_{ij} > U_{ik} \ \forall k \neq j \right) \]

誤差項の分布仮定に基づき、この確率は \((J-1)\) 次元の多変量正規分布の積分で表される。

推定方法#

  • 最大尤度法を用いるが、確率計算に多次元積分が必要となるため、シミュレーション最大尤度法(SML)GibbsサンプリングなどのMCMC法が用いられる。

  • \(J\) が増えると積分の次元が増加し、計算が急速に複雑になる。

ロジットモデルとの比較#

  • 多項ロジットモデルは誤差項を型 I 極値分布に従うと仮定するため、**IIA(独立性の仮定)**が成立する。

  • 多項プロビットモデルは誤差項に相関を持たせることができるため、IIA制約を緩和できる。

  • その代わり、計算コストはロジットモデルより高い。

用途#

多項プロビットモデルは、交通手段選択、消費者のブランド選択、政策選好分析など、選択肢間の相関を考慮する必要がある場面で広く利用される。