項目反応理論#
古典的テスト理論(CTT)では項目の指標(困難度、識別力)や信頼性係数、測定の標準誤差などのいずれもがテストの受験者集団の性質に依存する問題があった。
IRTではテストに含まれる項目の難易度と受験者の能力を分離して表現できる。
IRTの考え方#
IRTでは受験者の能力と項目(設問)の特徴を分離する。
テストを例にすると、IRTで使う観測データは「ある受験者\(i\)が、ある設問\(j\)について、正解したかどうか\(u_{ij} \in \{0, 1\}\)」。
この観測値\(u_{ij}\)の背後には潜在的に「正解する確率(このくらいの能力の人たちのN%はこの設問に正解する)\(P(u_{ij} = 1)\)」が存在すると考える。
そして正解する確率\(P(u_{ij}=1)\)に影響を与える要因として、 受験者の能力\(\theta_i\) 、 設問の識別力\(a_j\) 、 設問の困難度\(b\) といったパラメータがあると考える。
正解する確率 \(P(u_{ij}=1)\) はロジスティック・シグモイド関数を使うモデル(logistic model)が一般的。
2 parameters logistic model (2PLM)
この\(a_j, b_j, \theta_i\)は未知の値(モデル上のパラメータ)なので、ベルヌーイ分布を仮定してデータ\(u_{ij}\)から最尤推定法などを使って推定する。
ロジスティック回帰との比較
2PLMは、ロジスティック回帰の説明変数\(x\) を \(\theta\)に置き換えたものである
2PLMを整理すると
で、傾き係数\(a_j\)を\(\beta\)とおき、\(-a_j b_j\)を切片項\(\alpha\)として \(\theta_i\) の代わりに説明変数 \(x_i\) とおけばロジスティック回帰モデルになる。
ロジスティック回帰モデルでは観測値である説明変数\(x_i\)を使うが、IRTではそれにあたる\(\theta_i\)も未観測の潜在変数であり、データから推定するパラメータ、という違いがある。
「2PLモデルは潜在変数によるロジスティック回帰モデル」といえる。
項目特性曲線#
IRTでは 項目特性曲線(item characteristic curve: ICC) を使うことで受験者の能力と項目の困難度を分離する。
最も標準的なIRTモデルである2PLM(2 parameters logistic model)は
であり、これを図にしたものがICCになる。
困難度\(b\)が能力値\(\theta\)と等しくなる点で正答率\(P(y=1)=0.5\)となるようになっている
識別力\(a\)が高いほどシグモイド関数の傾きが急で、能力値がある値を超えると明確に正答率が変わっていることを示す
\(\theta = b\)のときにどれだけ\(\theta\)に敏感なのかを示す
困難度\(b\)が高いほどシグモイド関数が右側にシフトしており、能力値が高くないと正答できないことを示す
\(\theta = b\)の点が\(P=0.5\)なので、\(\theta < b\)なら\(P < 0.5\)、逆も然り
ICCは2種類の解釈がある
能力値が\(\theta\)である個々の受験者の(設問\(j\)に対する)正答確率
能力値が\(\theta\)である受験者母集団における(設問\(j\)に対する)正答者の比率
後者が頻度主義的であり一般的で無理のない解釈
IRTモデルの仮定#
主な仮定
局所独立性 :\(\theta\)で条件づけた下での項目間の独立性。尤度関数の構築のために仮定。
一次元性 :データの主成分は1次元で(1次元のスコアで)概ね表せる
詳細:validation
局所独立性#
最尤推定を使う場合、尤度関数(≒反応パターンの同時分布)を各項目の積
とするために、\(\theta\)で条件づけた下での項目間の独立性を仮定している。 (なお\(\mathbf{T}\)は項目パラメータ、\(u_{i j}\)は二値の反応、\(\mathbf{U}\)は反応パターン行列、\(P_j(\theta_i \mid \mathbf{T})\)はICC)
局所独立性の正確な検証は難しいが、\(Q_3\)統計量が参考によく用いられる。
\(Q_3\)統計量
\(Q_3\)統計量は任意の項目のペア\(j\)と\(j^\prime\)の間の局所独立性の指標として次のように定義される。
ここで:
\(r(\cdot, \cdot)\):相関係数
\(e_{ij} := u_{ij} - \hat{P}_j(\hat{\theta}_i)\) :推定値によるICC\(\hat{P}_j(\hat{\theta}_i)\)と実測値\(u_{ij}\)の残差得点
\(Q_3\)統計量は
\(\theta\)によって項目間の相関関係が十分に説明されているとすれば、その影響を除去した残差得点同士の相関は0に近くなるはず
\(\theta\)以外に項目間に相関をもたらす要因がある場合は\(\theta\)の影響を除いてもなお相関が残る
という考え方をとっている。
目安としては、「\(Q_3 > 0.20\)の項目ペアは局所独立性の侵害を疑う必要がある」とされるが0.20も絶対の閾値ではない。
一次元性#
スクリープロットを描き、第1主成分が突出して高ければ一次元性を満たすと判断する。厳密な判断基準はない。
モデル#
\(i\)番目の被験者の\(j\)番目の項目の値\(y_{ij}\)が二値\(\{0, 1\}\)であるとする(例えば正解・不正解だったり、アンケートの「あてはまる」「あてはまらない」という2件法など)。
\(y_{ij}\)の背後には潜在的な能力の連続量\(\theta_i \in \mathbb{R}\)が存在し、\(\theta_i\)が閾値\(b_j\)を超えていたら1、超えていなければ0が観測されるとする。つまり\(y_{ij}\)が以下のように決まるとする。
1パラメータ正規累積モデル#
しかし、実際には被験者\(i\)の体調や運(たまたま正解できた)などにより、常にこのようにきれいに正解・不正解が決まるわけではないと考えられる。こうした誤差を表すパラメータ\(\varepsilon_{ij} \sim N(0, \sigma^2_{\varepsilon})\)も追加して
とする。誤差が確率変数のため、\(y_{ij}\)のとる値も確率変数として考えることができるようになる。\(b_j\)を移項すると
となる。\(\theta_i - \varepsilon_{ij} - b_j \sim N(\theta_i - b_j, \sigma^2_{\varepsilon})\)である。 \(\varepsilon_{ij}\)を移項すれば
でもあるので「\(y_{ij}=1\)となるのは誤差\(\varepsilon_{ij}\)が\(\theta_i - b_j\)以下のとき」とわかる。
仮に\(\varepsilon_{ij}\)が標準正規分布(\(\sigma^2_{\varepsilon} = 1\)の正規分布)に従うならば、特性値\(\theta_i\)の人が項目\(j\)に当てはまると回答する確率は
となる(最後のは、\(\varepsilon_{ij}\)が従う標準正規分布のうち \(-\infty\) から \(k\theta_i-b_j\) までの範囲の面積が\(P(\varepsilon_{ij} \leq \theta_i - b_j)\)ということ)。
2パラメータ正規累積モデル#
\(\sigma^2_{\varepsilon}\)が項目ごとに異なる場合を考える。\(\sigma^2_{\varepsilon}=1/a_j\)とすると、誤差の確率分布は
となる。両辺を\(a_j\)倍すると、\(a_j \varepsilon_{ij} \sim N(0, 1)\)と表すことができ、引き続き標準正規分布を使うことができる。そのためモデルは\(a_i\)が追加され
となる。
パラメータの意味
\(b_j\)が大きくなると\(\theta_i - b_j\)の値は小さくなり、\(P(y_{ij} = 1)\)の面積が小さくなる。\(y_{ij} = 1\)が正解を表しているとするなら、正答率が低くなる方向に作用する。そのため\(b_j\)は 項目困難度(item difficulty) と呼ばれる。
また\(a_j\)は値が大きくなると\(\varepsilon_{ij}\)の分散を下げて分布がより尖っていく。また横軸に\(\theta_i - b_j\)、縦軸に\(P(y_{ij} = 1)\)のグラフを書くとき、この曲線の傾きを急にして、\(\theta_i\)が低い人と高い人の間で\(P(y_{ij} = 1)\)の変化を大きくする。そのため\(a_j\)は 項目識別力(item discrimination) と呼ばれる。
なお横軸に\(\theta_i\)、縦軸に\(P(y_{ij}=1)\)をとったグラフは 項目特性曲線 (item characteristic curve: ICC) と呼ばれる。
能力パラメータの推定#
最尤推定法による推定#
例として2PLMを考え、項目パラメータ\(a,b\)が既知であり、\(\theta\)を推定したい場合であるとする。
局所独立性の仮定のもとで、受験者\(i\)の能力値\(\theta_i\)のもとでの項目反応\(\mathbf{u}_i\)の同時分布は
となる。ここで\(P_j(\theta_i)\)は能力値\(\theta_i\)の受験者が項目\(j\)に正答する確率であり、2PLMのICC
で表現される。\(Q_j(\theta_i)\)は誤答する確率であり、\(Q_j(\theta_i):= 1 - P_j(\theta_i)\)である。
項目反応が既知であれば\(P(\mathbf{u}_i \mid \theta_i)\)は尤度\(L(\theta_i \mid \mathbf{u}_i)\)となる。
項目パラメータの推定#
主に2つのアプローチがある
能力パラメータ\(\theta\)と項目パラメータ\(a,b\)を同時に推定する方法(主に1PLM)
最尤推定だと 同時最尤推定法(joint maximum likelihood estimation)
ベイズ推定だと 階層ベイズ推定法(hierarchical Bayes estimation)
能力パラメータ\(\theta\)は 消去 して項目パラメータ\(a,b\)を推定する方法(基本こっちが使われる)
最尤推定だと 周辺最尤推定法(marginal maximum likelihood estimation)
ベイズ推定だと 周辺ベイズ推定法(marginal Bayes estimation)
最尤推定法の場合、1~3PLMではEMアルゴリズムが多く(統計ソフトウェアでもデフォルト)、4PLMや多次元IRTモデルといった複雑なモデルではMHRM(Metropolis–Hastings Robbins–Monro)などが使われる
最尤推定法について#
尤度関数は項目パラメータ\(\mathbf{T}\)、反応パターン行列\(\mathbf{U}\)をもとに次のように表される
同時最尤推定法#
以下の手順で解く。
パラメータの初期値を与える
\(\mathbf{\theta}\)を所与として\(\mathbf{T}\)を推定する
\(\mathbf{T}\)を所与として\(\mathbf{\theta}\)を推定する
2.と3.を収束するまで繰り返す
同時最尤推定法は1PLMでは十分機能するが、2PLM以上だと解が収束しないことがあったり、項目パラメータが一致性をもたないなどの問題がある。 そのため、実際に多くのIRTソフトウェア(IRTPRO, BILOG-MG, ICLなど)で用いられているのは周辺最尤推定法である。
周辺最尤推定法#
Bock & Lieberman (1970)が提案した周辺最尤推定法では尤度関数から\(\theta\)を積分消去した尤度関数(周辺尤度関数)を使用して項目パラメータを求める。周辺尤度関数\(L_M\)は次のように定義される。
ここで\(f(\theta_i)\)はあらかじめ定めた\(\theta\)の母集団分布(事前分布)であり、通常は標準正規分布\(\mathcal{N}(0,1)\)が用いられる。 \(\theta\)に分布を仮定して期待値をとることで\(\theta\)を除去している。
しかし、周辺尤度の対数をとった対数周辺尤度関数
を使ってのパラメータ推定は計算が難しかった。 そこでBock & Aitkin (1981)が EMアルゴリズム (Dempster et al., 1977)の利用を提案した。
EMアルゴリズム#
対数周辺尤度関数のうち積分の対象となっている関数
は項目パラメータが与えられたときの反応\(\mathbf{u}_i\)と能力パラメータ\(\theta_i\)の同時確率分布を表している。仮に、\(\mathbf{U}\)に加えて \(\boldsymbol{\theta}\)も既知である とするなら、項目パラメータに関してのみ最大化すればいいので\(L_C(\mathbf{T} \mid \mathbf{u}_i, \theta_i)\)を全受験者について積をとった
を最大化して最尤推定値を得ることができる。このように考えたとき、\(L_C(\mathbf{T} \mid \mathbf{U}, \boldsymbol{\theta})\)を 完全データ尤度関数(complete data likelihood function) といい、その対数をとった
を 対数完全データ尤度関数(log complete data likelihood function) という。
\(\boldsymbol{\theta}\)は実際には未知であるため、EMアルゴリズムでは対数完全データ尤度関数の\(\boldsymbol{\theta}\)に関する期待値をもとめて尤度関数から\(\boldsymbol{\theta}\)を消去する(このステップはexpectationの頭文字をとって Eステップ と呼ばれる)。そして項目パラメータ\(\mathbf{T}\)を最尤推定して求める(maximizationの頭文字を取って Mステップ という)。EMアルゴリズムではEステップとMステップを交互に繰り返す。
E-step では、項目パラメータの現在の推定値\(\mathbf{T}^{\text{old}}\)とデータで条件づけた能力パラメータ\(\theta\)の条件付き分布\(f(\theta \mid \mathbf{U}, \mathbf{T}^{\text{old}})\) と完全データ対数尤度 \(\ln L_C(\mathbf{T} \mid \mathbf{U}, \boldsymbol{\theta}) \)を用いて、
という計算を行う。この積分計算はGauss–Hermiteなどの数値積分法で近似される。
\(Q(\mathbf{T}\mid \mathbf{T}^{\text{old}})\)を最大化するパラメータ\(\mathbf{T}^{\text{new}}\)を求める
\(\mathbf{T}^{\text{new}}\)は次のE-stepでの\(\mathbf{T}^{\text{old}}\)となる。収束基準が満たされるまで、E-stepとM-stepを繰り返す
参考#
例:mirtパッケージに実装された様々なパラメータ推定法#
Rのmirtパッケージは多次元IRTモデルも推定可能で、モダンなパラメータ推定方法も実装されている
mirt()関数のドキュメントを見るとmethodの欄に色々書いてある
'EM': the standard EM algorithm with fixed quadrature (default)固定求積法を用いた標準EMアルゴリズム。
'QMCEM': quasi-Monte Carlo EM estimation'MHRM':Metropolis–Hastings Robbins–Monro Algorithm'SEM': Stochastic EM algorithm (first two stages of the MH-RM stage using an optimizer other than a single Newton-Raphson iteration)
1~3次元IRTまではEMで足りる様子。
The ‘EM’ is generally effective with 1-3 factors, but methods such as the ‘QMCEM’, ‘MCEM’, ‘SEM’, or ‘MHRM’ should be used when the dimensions are 3 or more.