項目反応理論

項目反応理論#

モデル#

$i$ 番目の被験者の $j$ 番目の項目の値 $y_{i j}$ が二値 ${0, 1}$ であるとする（例えば正解・不正解だったり、アンケートの「あてはまる」「あてはまらない」という2件法など）。

$y_{i j}$ の背後には潜在的な能力の連続量 $θ_{i} \in R$ が存在し、 $θ_{i}$ が閾値 $b_{j}$ を超えていたら1、超えていなければ0が観測されるとする。つまり $y_{i j}$ が以下のように決まるとする。

\begin{array}{r} y_{i j} = {\begin{cases} 0 & if θ_{i} < b_{j} \\ 1 & if θ_{i} \geq b_{j} \end{cases} \end{array}

正規累積モデル#

1パラメータ正規累積モデル#

しかし、実際には被験者 $i$ の体調や運（たまたま正解できた）などにより、常にこのようにきれいに正解・不正解が決まるわけではないと考えられる。こうした誤差を表すパラメータ $ε_{i j} \sim N (0, σ_{ε}^{2})$ も追加して

\begin{array}{r} y_{i j} = {\begin{cases} 0 & if (θ_{i} - ε_{i j}) < b_{j} \\ 1 & if (θ_{i} - ε_{i j}) \geq b_{j} \end{cases} \end{array}

とする。誤差が確率変数のため、 $y_{i j}$ のとる値も確率変数として考えることができるようになる。 $b_{j}$ を移項すると

\begin{array}{r} y_{i j} = {\begin{cases} 0 & if (θ_{i} - ε_{i j} - b_{j}) < 0 \\ 1 & if (θ_{i} - ε_{i j} - b_{j}) \geq 0 \end{cases} \end{array}

となる。 $θ_{i} - ε_{i j} - b_{j} \sim N (θ_{i} - b_{j}, σ_{ε}^{2})$ である。 $ε_{i j}$ を移項すれば

\begin{array}{r} y_{i j} = {\begin{cases} 0 & if (θ_{i} - b_{j}) < ε_{i j} \\ 1 & if (θ_{i} - b_{j}) \geq ε_{i j} \end{cases} \end{array}

でもあるので「 $y_{i j} = 1$ となるのは誤差 $ε_{i j}$ が $θ_{i} - b_{j}$ 以下のとき」とわかる。

仮に $ε_{i j}$ が標準正規分布（ $σ_{ε}^{2} = 1$ の正規分布）に従うならば、特性値 $θ_{i}$ の人が項目 $j$ に当てはまると回答する確率は

\begin{array}{r} \begin{aligned} P (y_{i j} = 1) & = P (ε_{i j} \leq θ_{i} - b_{j}) \\ = \int_{- \infty}^{(θ_{i} - b_{j})} \frac{1}{\sqrt{2 π}} \exp (- \frac{z^{2}}{2}) d z \end{aligned} \end{array}

となる（最後のは、 $ε_{i j}$ が従う標準正規分布のうち $- \infty$ から $ｋ θ_{i} - b_{j}$ までの範囲の面積が $P (ε_{i j} \leq θ_{i} - b_{j})$ ということ）。

../../_images/5712ae734db6153a9ef016638910c03d75dc897c651cfabd2859064dce5946d8.png

2パラメータ正規累積モデル#

$σ_{ε}^{2}$ が項目ごとに異なる場合を考える。 $σ_{ε}^{2} = 1 / a_{j}$ とすると、誤差の確率分布は

ε_{i j} \sim N (0, \frac{1}{a_{j}})

となる。両辺を $a_{j}$ 倍すると、 $a_{j} ε_{i j} \sim N (0, 1)$ と表すことができ、引き続き標準正規分布を使うことができる。そのためモデルは $a_{i}$ が追加され

\begin{array}{r} \begin{aligned} P (y_{i j} = 1) & = P (a_{j} ε_{i j} \leq θ_{i} - b_{j}) \\ = \int_{- \infty}^{a_{j} (θ_{i} - b_{j})} \frac{1}{\sqrt{2 π}} \exp (- \frac{z^{2}}{2}) d z \end{aligned} \end{array}

となる。

パラメータの意味

$b_{j}$ が大きくなると $θ_{i} - b_{j}$ の値は小さくなり、 $P (y_{i j} = 1)$ の面積が小さくなる。 $y_{i j} = 1$ が正解を表しているとするなら、正答率が低くなる方向に作用する。そのため $b_{j}$ は 項目困難度（item difficulty） と呼ばれる。

また $a_{j}$ は値が大きくなると $ε_{i j}$ の分散を下げて分布がより尖っていく。また横軸に $θ_{i} - b_{j}$ 、縦軸に $P (y_{i j} = 1)$ のグラフを書くとき、この曲線の傾きを急にして、 $θ_{i}$ が低い人と高い人の間で $P (y_{i j} = 1)$ の変化を大きくする。そのため $a_{j}$ は 項目識別力（item discrimination） と呼ばれる。

../../_images/4f65c10845499fb139dd77b2cfd323f871e6bf58b933a5933fe5bcbcdd7ec42f.png

なお横軸に $θ_{i}$ 、縦軸に $P (y_{i j} = 1)$ をとったグラフは 項目特性曲線（item characteristic curve: ICC） と呼ばれる。

ロジスティックモデル#

正規累積モデルはプロビット回帰と同様のことをするので、コンピュータで積分計算をするのがやや難しいという問題がある。そこでロジスティック分布に置き換えたものが使われる。

ロジスティック分布の確率密度関数と累積分布関数は

f (x) = \frac{\exp (- x)}{[1 + \exp (- x)]^{2}}, F (x) = \frac{1}{1 + \exp (- x)}

となる。とくに $x$ を約1.7倍したロジスティック分布は累積分布関数が正規分布と非常に近くなることが知られている。

../../_images/a8b9eefa5477841feff8c8ca72c4e81d329ffb9c9400cf4020a36c296e53fbec.png

2PLモデル#

正規分布の代わりにロジスティック分布を使った 2パラメータロジスティック（2PL）モデル は以下のように表される。

2PLモデル

P (y_{i j} = 1) = \frac{1}{1 + \exp (- 1.7 a_{j} (θ_{i} - b_{j}))}

$a_{j}$ ：項目識別力
$b_{j}$ ：項目困難度

なお1.7は正規累積モデルに近づけるための定数なので、正規累積モデルと比較する必要がなければ不要。

3PLモデル#

例えば4択問題では、正解がわからなくて適当に選んだとしても1/4は当たることになる。こうした影響を「当て推量」パラメータ $c_{j}$ として取り入れたモデル。

3PLモデル

P (y_{i j} = 1) = c_{j} + \frac{1 - c_{j}}{1 - \exp (- a_{j} (θ_{i} - b_{j}))}

$a_{j}$ ：項目識別力
$b_{j}$ ：項目困難度
$c_{j}$ ：当て推量

$c_{j}$ は項目特性曲線の下限となる。 $θ_{i}$ がどんなに低い人でも必ず $c_{j}$ 以上の $P (y_{i j} = 1)$ になるということ。

4PLモデル#

項目特性曲線の上限を表すパラメータ $d_{j}$ を追加したもの。 $θ_{i}$ がどんなに高い人でも100%の正答率にはできない高難度な状況（運ゲー）を想定したモデル。

4PLモデル

P (y_{i j} = 1) = c_{j} + \frac{d_{j} - c_{j}}{1 - \exp (- a_{j} (θ_{i} - b_{j}))}

$a_{j}$ ：項目識別力
$b_{j}$ ：項目困難度
$c_{j}$ ：当て推量。項目特性曲線の下限
$d_{j}$ ：項目特性曲線の上限

5PLモデル#

「非対称性」のパラメータ $e_{j}$ を追加したもの。4PLまでは項目特性曲線の動き方が0.5を中心に対称になっている。5PLでは「最初は $θ_{i}$ があがるほど急激に $P (y_{i j} = 1)$ が上がるが、徐々に上がりにくくなる」などの状況を表すことができる。

5PLモデル

P (y_{i j} = 1) = c_{j} + \frac{d_{j} - c_{j}}{{[1 - \exp (- a_{j} (θ_{i} - b_{j}))]}^{e_{j}}}

$a_{j}$ ：項目識別力
$b_{j}$ ：項目困難度
$c_{j}$ ：当て推量。項目特性曲線の下限
$d_{j}$ ：項目特性曲線の上限
$e_{j}$ ：非対称性

因子分析と2P正規累積モデルは等価

因子分析と2パラメータ正規累積モデルは数学的に等価であると知られている。標準化していない（切片が0でない）1因子モデルは、

y_{i j} = τ_{j} + a_{j} f_{i} - ε_{i j} (ε_{i j} \sim N (0, σ_{ε}))

となる（IRTの説明に合わせて誤差の符号をマイナスにしている）

カテゴリカル因子分析では離散的な観測変数 $y_{i j}$ はその背後にある連続量によって決まる、という考え方をするため、IRTの冒頭の説明と同じ。

標準正規分布に従う誤差 $ε_{i j}$ が $τ_{j} + a_{j} f_{i}$ より小さいときに $y_{i j} = 1$ となるため、その確率 $P (y_{i j} = 1)$ は

\begin{array}{r} \begin{aligned} P (y_{i j} = 1) & = P (ε_{i j} \leq τ_{j} + a_{j} f_{i}) \\ = \int_{- \infty}^{(τ_{j} + a_{j} f_{i})} \frac{1}{\sqrt{2 π}} \exp (- \frac{z^{2}}{2}) d z \end{aligned} \end{array}

となる。2つのモデルのパラメータを $(f_{i}, a_{j}, τ_{j}) = (θ_{i}, a_{j}, a_{j} b_{j})$ と対応させると

\begin{array}{r} \begin{aligned} τ_{j} + a_{j} f_{i} & = a_{j} (f_{i} + \frac{τ_{j}}{a_{j}}) \\ = a_{j} (θ_{i} - b_{i}) \end{aligned} \end{array}

となる。

多値型モデル#

項目の反応 $y_{i j}$ が多値になった場合のモデルも存在する。

段階反応モデル#

段階反応モデル（graded response model: GRM） は複数の二値IRTモデルを組み合わせて多値反応を表現する。

回答者 $i$ の項目 $j$ に対する回答 $y_{i j} = k (k = 1, 2, \dots, K)$ について、「 $k$ 以上のカテゴリを選ぶ確率」を考えると、これはまだ「 $k$ 未満 or $k$ 以上」の二値なので2PLなどで表せる。例えば以下のようになる。

P (y_{i j} \geq k) = \frac{1}{1 + \exp (- a_{j} (θ_{i} - b_{j k}))}

なお、困難度は項目 $j$ のカテゴリ $k$ ごとに用意されるため $b_{j k}$ に変更している。

このモデルを組み合わせると、「ちょうど $k$ 番目のカテゴリを選ぶ確率」は

P (y_{i j} = k) = P (y_{i j} \geq k) - P (y_{i j} \geq k + 1)

と表すことができる。ただし端のカテゴリは $P (y_{i j} \geq 1) = 1, P (y_{i j} \geq K + 1) = 0$ とする。また確率100%の困難度は低くて当然なので $b_{j 1} = - \infty$ とする。

段階反応モデル

P (y_{i j} = k) = \frac{1}{1 + \exp (- a_{j} (θ_{i} - b_{j k}))} - \frac{1}{1 + \exp (- a_{j} (θ_{i} - b_{j k + 1}))}

名義反応モデル#

名義反応モデル（nominal response model: NRM） も段階反応モデルと同様に多値の回答にIRTを適用したモデル。softmax関数のような形で多値化する。

P (y_{i j} = k) = \frac{\exp (a_{j k} θ_{i} + γ_{j k})}{\sum_{κ = 1}^{K} \exp (- a_{j κ} θ_{i} + γ_{j κ})}

連続反応モデル#

連続反応モデル（Continuous Response Model, CRM）は連続的な反応（例：時間、強度、割合）を扱うことができる。

CRMは段階反応モデル（GRM）をさらに多段階に拡張していって連続値を扱う。

受験者 $i$ が項目 $j$ において $x_{j}$ 点以上をとる確率は、次のようにロジスティック関数で表すことができる

p_{i}^{*} (x_{j}) = \frac{1}{1 + \exp (- a_{j} (θ_{i} - b_{x_{j}}))}

これを使うと、受験者 $i$ が項目 $j$ において $x_{j}$ 点をとる確率 $p_{i} (x_{j})$ を次のように定義できる

p_{i} (x_{j}) = lim_{Δ x_{j} \to 0} \frac{p_{i}^{*} (x_{j}) - p_{i}^{*} (x_{j} + Δ x_{j})}{Δ x_{j}}

$b_{x_{j}}$ は項目 $j$ において $x_{j}$ 以上の点を取る困難度で、ロジスティック関数の逆関数を用いて以下のように定義される

b_{x_{j}} = β_{j} + \frac{1}{α_{j}} \log \frac{x_{j}}{K_{j} - x_{j}}

ここで $α_{j}, β_{j}$ はロジスティック関数の逆関数における識別力と困難度を表現するパラメータ、 $K_{j}$ は $x_{j}$ のとる最大値（ $x_{j} \in [0, K_{j}]$ ）

参考

適合度の評価#

局所独立性の確認#

$χ^{2}$ 統計量

個人適合度#

「 $θ_{i}$ が高い人なのに困難度が低い項目で間違えるのはおかしい」といった考え方から、特性 $θ_{i}$ と困難度 $b_{j}$ の関係性を見る。

$z_{h}$ （ $l_{z}$ ）統計量 ：ある回答者の反応パターン $y_{i} = (y_{i 1}, y_{i 2}, \dots, y_{i J})$ と「考えられる全反応パターン」での尤度を比較する

IRTの前提条件・仮定#

局所独立性（local independence）の仮定#

$θ_{i}$ で条件づけたとき、項目 $j$ と項目 $l$ （ $j \neq l$ ）への回答は完全に独立であるという仮定。最尤推定の計算の簡易化のために必要になる。

仮定を満たすか確認する方法：

例えばデータから $θ_{i}$ が特定の値の人を集めて（ $θ_{i}$ で条件づけたデータを用意して）、項目 $j, l$ の回答のクロス表を作ったとき、関連性がない場合は局所独立性が満たされていることがわかる。

一次元性#

もともとのIRTは単一のテストに対する単一の能力を測定することが主たる目的のため、推定する因子数は1である（因子数を拡張したモデルも存在するが、基本は1）。そのため、すべての項目が同じ能力・特性のみを反映していることが必要となる。