順序回帰(ordered regression)#
概要#
Ordered Regression は、順序尺度(ordinal scale)のカテゴリカルデータを目的変数にとる回帰モデル。
例えば目的変数 \(y\) が:
評価 |
数値 |
|---|---|
悪い |
1 |
普通 |
2 |
良い |
3 |
とても良い |
4 |
のように
大小関係はある(順序性あり)
間隔は等しいとは限らない(距離不明)
というカテゴリ変数である場合、
線形回帰(間隔尺度を仮定)
多項ロジット(順序性を無視)
は不適切となるため、専用のモデルが必要となる。
色々なモデル#
順序ロジットモデル(orderd logit moodel) や 順序プロビットモデル(ordered probit model) などがある。
ロジット関数(ロジスティック関数)を使うタイプであってもいくつかタイプがある様子
1️⃣ 累積ロジットモデル系 (まとめて 順序ロジットモデル(orderd logit moodel) や 順序ロジスティック回帰(ordered logistic regression) と呼ばれることも)
比例オッズモデル(proportional odds model) :ロジスティック回帰モデルの差で確率を表現するモデル \(P(y = k) = P(y \le k) -P(y \le k-1)\)
累積ロジットモデル(cumulative logit model) :比例オッズモデルの回帰係数がカテゴリごとに異なるよう一般化したモデル \(P(y \le k \mid \mathbf{x}) = \frac{1}{1+\exp\left[-(\tau_k - \mathbf{x}^\top \beta_k)\right]}\)
2️⃣ 隣接カテゴリ・ロジット・モデル (adjacent category logit model)
両者の比較#
累積ロジットモデル |
隣接カテゴリロジットモデル |
|
|---|---|---|
ロジット |
\(\log \frac{P(y \le k)}{P(y > k)}\) |
\(\log \frac{P(y = k)}{P(y = k+1)}\) |
解釈 |
「\(k\)以下」vs「\(k\)より上」の累積オッズ |
「\(k\)」vs「\(k+1\)」の隣接オッズ |
確率の導出 |
累積確率の差 |
再帰的に計算 |
比例オッズの意味 |
累積オッズ比が \(x\) に依らず一定 |
隣接オッズ比が \(x\) に依らず一定 |
隣接カテゴリロジットモデルの方が「直前のカテゴリから次のカテゴリへの移行」を直接モデル化するため、各カテゴリ間の遷移の難しさを表現する場合に直感的である。
目次#
関連文献#
Christensen, R. H. B. (2018). Cumulative link models for ordinal regression with the R package ordinal. Submitted in J. Stat. Software, 35, 1-46. https://api.semanticscholar.org/CorpusID:59572956
Wurm, M. J., Rathouz, P. J., & Hanlon, B. M. (2021). Regularized ordinal regression and the ordinalNet R package. Journal of Statistical Software, 99, 1-42. https://doi.org/10.18637/jss.v099.i06
Dobson, A. J., & 田中豊. (2008). 一般化線形モデル入門.