テスト理論（スコアリング）

テスト理論（スコアリング）#

「英語力」や「トンネルの劣化度合い」など、何らかの概念上の値を測りたいとする。

「身長」「体重」のような物理的に測定できるものとは異なり、これらの概念的なスコアは直接測ることはできない。そこでテストの設問や調査の項目を複数用意して測っていくことになり、それらの項目の点数をどのように集約して扱いやすいスコアを算出するかが課題となり、テスト理論の出番となる。

古典テスト理論 と呼ばれる考えかたと、より新しい 項目反応理論 がある。

古典テスト理論では、観測した得点\(z\)は真の得点\(\mu\)と測定誤差\(e\)によって構成されると考える。

\[ z = \mu + e \]

誤差は過大評価も過小評価もありえて、平均が0になる確率変数\(E[e]=0\)と仮定する。

例：学力調査

同じテストを学校Aと学校Bで実施した。

Q. Yさんの学力がXさんより上と言えるか？
→ 点数を偏差値に変換しても、学校ごとに学力分布が異なる場合は直接比較はできない。

偏差値（Z変換、標準化）は線形変換であり分布の形状は変えずスケールだけ変える。分布が異なるなら相対的な位置関係（上位N%）は変わらない。

テストの点数には

が影響する。

偏差値と同様に、古典テスト理論は項目の難易度と受験者の能力の分布の影響が分離ができないので、異なる集団間の受験者の能力を比較可能にできない。

テスト理論における用語

素点（row score, そてん, 粗点とも）：テストの問題ごとの配点の点数。
テスト得点の 集団依存性（group dependence） （ 標本依存性（sample dependence） とも）：テスト得点（素点の合計）がテストを受けた集団に依存すること。例えば同じ試験でも優秀な学生たちが解くのとそうでない学生たちが解いたのでは集団の平均点が変わる。
テスト得点の 項目依存性（item dependence） ：テストの平均点が個々のテスト項目の難易度に影響されること。
等化（equating） ：異なるテストの結果を比較可能にする手続き。IRTを使っても等化の手続きは必要になる

古典テスト理論では集団依存性や項目依存性の問題を解決できない

項目反応理論（item response theory: IRT） は受験者の能力と項目の難しさを別々に推定することが可能な理論。

例えば以下のようなモデルを使用する。回答者\(i\)の項目\(j\)への正答確率について以下のように表すモデルを構築する

\[ P(y_{ij} = 1) = \operatorname{logit}^{-1}(a_j (\theta_i - b_j)) = \frac{1}{1+\exp(-a_j (\theta_i - b_j))} \]

ここで

\(\theta_i\) ： 達成度 (achievement) や 潜在特性 (trait) と呼ばれるパラメータ（\(\theta_i \sim \mathcal{Normal}(0,1)\)）
\(a_j\) ： 識別力 (discrimination) と呼ばれるパラメータ
\(b_j\) ： 困難度(difficulty) と呼ばれるパラメータ

上記のモデルは2パラメータロジスティックモデル（2PL）というモデルで、他にも3PLなど様々なモデルが存在する。

項目反応理論はTOEIC, TOEFL, PISA, SATなど様々なテストで用いられている。例えばTOEICは毎回の試験で異なる設問項目で構成されるが、TOEICのスコアの価値は等しくなるよう設計されている。