古典的テスト理論

古典的テスト理論#

古典的テスト理論（classical test theory: CTT） は20世紀初頭から、IRTが発展する1950年代ごろまでに発展したテスト理論。

現代テスト理論（IRT）で完全に置き換わったというわけではなく、IRTが不要な問題設定ではいまも利用される。

概要#

CTTにおいて、テスト得点\(y\)は真の得点\(t\)と測定誤差\(e\)からなると考える。

\[ y = t + e \]

誤差には次のような仮定を設ける。

\(E(e) = 0\)（誤差は期待値ゼロ）
\(\rm{Cov}(t, e) = 0\)（\(t\)と\(e\)は無相関）

こうした仮定が満たされるならばテスト得点\(y\)は真の得点（真の能力）\(t\)の不偏推定量であり、（同じテストなら）テスト得点で能力を比較できる、というもの。

項目反応とテスト得点#

項目#

テストを構成する個々の設問は 項目（item） と呼ばれる。正当・誤答の二値の反応だけのデータの場合、\(i\)番目の受験者の項目\(j\)への回答を\(u_{ij}\)とすると、

\[\begin{split} u_{i j}= \begin{cases}1 & \text { 正答のとき } \\ 0 & \text { 誤答のとき }\end{cases} \end{split}\]

と表現できる。

項目反応パタン#

\(i\)番目の受験者の\(J\)個の項目への反応をまとめて

\[ \mathbf{u}_i=\left(u_{i 1}, u_{i 2}, \ldots, u_{i J}\right) \]

と行ベクトルで表す。この\(\mathbf{u}_i\)は 項目反応パターン（item response pattern） と呼ばれる。

項目反応パタン行列#

項目反応パタンを縦に全受験者\(I\)人分並べた行列を 項目反応パタン行列 あるいは 項目反応データ行列 という。

\[\begin{split} \mathbf{U}=\left[\begin{array}{c} \mathbf{u}_1 \\ \mathbf{u}_2 \\ \vdots \\ \mathbf{u}_i \\ \vdots \\ \mathbf{u}_I \end{array}\right]=\left[\begin{array}{cccccc} u_{11} & u_{12} & \cdots & u_{1 j} & \cdots & u_{1 J} \\ u_{21} & u_{22} & \cdots & u_{2 j} & \cdots & u_{2 J} \\ \vdots & \vdots & & \vdots & & \vdots \\ u_{i 1} & u_{i 2} & \cdots & u_{i j} & \cdots & u_{i J} \\ \vdots & \vdots & & \vdots & & \vdots \\ u_{I 1} & u_{I 2} & \cdots & u_{I j} & \cdots & u_{I J} \end{array}\right] \end{split}\]

素点#

\(i\)番目の受験者のテスト得点を\(y_i\)とすると、これは行ベクトル\(\mathbf{u}_i\)を足し合わせればよいので

\[ y_i=\sum_{j=1}^J u_{i j} \]

となる。このような正答項目数による得点を 正答数得点 (number of right score) あるいは 素点 (raw score) と呼ぶ。

項目の評価指標#

CTTにおける項目困難度と項目識別力がある（IRTのものとは定義が異なる）

項目困難度（通過率）#

CTTにおける 項目困難度（item difficulty） は項目の正答率になる。

項目\(j\)に正答した受験者数を\(n_j\)人とすると、全受験者数\(I\)人に対する比として

\[ p_j=\frac{n_j}{I}=\frac{\sum_{i=1}^I u_{i j}}{I} \]

と表すことができる。

これは正答した人の比率であり困難度という名前からすると逆の量なので 通過率 とも呼ばれる。

項目識別力#

項目識別力（item discrimination） はテスト全体で測っている能力について、個々の項目が能力値の高い受験者とそうでない受験者を区別できる度合いを意味する。

CTTでは個々の項目の得点（\(\{0, 1\}\)）とテスト得点の相関係数（biserial or point-biserial）で測ることが一般的。

点双列相関係数（point biserial correlation coefficient） で測られる事が多い。

テストの評価指標（信頼性）#

CTTのモデル#

CTTにおいて、テスト得点\(y\)は真の得点\(t\)と測定誤差\(e\)からなると考える。

CTTのモデル

\[ y = t + e \]

ここで

\(E(e) = 0\)（誤差は期待値ゼロ）
\(r(t, e) = 0\)（\(t\)と\(e\)は無相関）

\(r(t, e) = 0\)の仮定により、

\[ \sigma_y^2=\sigma_t^2+\sigma_e^2 \]

が成り立つ。

\(\sigma_e^2\) は 測定の誤差分散 、その正の平方根 \(\sigma_e\) を 測定の標準誤差 (standard error of measurement: SEM) と呼ぶ。

信頼性係数#

真の得点の分散の、テスト得点の分散に対する比を、テスト得点\(y\)の 信頼性係数 (reliability coefficient) という。

\[ \rho=\frac{\sigma_t^2}{\sigma_y^2} =\frac{\sigma_t^2}{\sigma_t^2+\sigma_e^2}=1-\frac{\sigma_e^2}{\sigma_y^2} \]

信頼性係数は測定の誤差分散が小さいほど1に近い値をとり、誤差分散が大きいとき0に近い値をとる。

クロンバックの\(\alpha\)係数#

信頼性係数\(\rho\)は母集団レベルの話であり、標本の情報から推定するには別の値を使う。信頼性係数の推定方法はいくつかあるが、「項目を超えた一貫性」に関する検討を行うクロンバックのα係数が代表的。

「項目を超えた一貫性」とは「テストに含まれる項目群を、同様の別の項目群に置き換えても結果は安定しているか」という考え方で、そういう意味での信頼性を近似的に与える指標がクロンバックのα係数である。

クロンバックの\(\alpha\)

\[ \alpha=\frac{J}{J-1}\left(1-\frac{\sum_{j=1}^J s_j^2}{s_y^2}\right) \]

\(J\)：項目数
\(s_y^2\)：テスト得点の分散
\(s_j^2\)：項目\(j\)の分散

\(\alpha\)係数は

項目間の相関が高いとき
項目数が多いとき

に高い値をとる。項目が多いだけでも高くなってしまうので注意が必要で参考程度に用いられる。

測定の標準誤差（SEM）は信頼性係数の推定値\(\hat\rho\)を用いて推定される。

測定の標準誤差（SEM）の推定量

\[ \operatorname{SEM} = s_y \sqrt{1-\hat{\rho}} \]

Note

こうしたCTTの信頼性係数や測定の標準誤差の注意点は

1つのテスト & 1つの受験者集団ごとに算出される
異なる受験者集団に対して測定の標準誤差を求めると、異なる値が得られる（標本依存性）

CTTの問題#

標本依存性#

項目困難度は項目の正答率 → 正答率は受験者集団によって異なるため、受験者集団（標本）に依存（ 項目困難度の標本依存性 ）
項目識別力は項目得点とテスト得点の相関係数 → 受験者集団の能力にばらつきが少なければ項目に対する正答・誤答の傾向が出にくくなる（項目識別力の標本依存性 ）

項目依存性#

項目困難度（正答率）が高い項目で構成されているテストでは、テスト得点は高くなる（逆も然り）。テスト得点という受験者の能力に関する情報が項目に依存する（ テスト得点の項目依存性 ）

CTTの長所#

一方でCTTはIRTに常に劣ってるわけではなく、CTTで十分なユースケースもある。

CTTの利点（Hambleton ＆ Jones 1993）

CTTはIRTより緩い仮定しか置かない（真値と誤差、その平均と共分散のみ）
簡単な計算で性能評価ができるため応用範囲が広い
- 例えばIRTのための事前分析にも使える
テストや項目の評価に用いる受験者集団が母集団をよく代表しているなら十分機能する
必要な受験者数がIRTに比べて少なくて済む