近年のIRTのトピック#

Neural Networkに基づくIRT#

Deep-IRT#

異なるテスト評価のリンケージにおいては、同一母集団からの独立なランダムサンプリングを仮定する。
Deep-IRTは受験者が単一母集団からのランダムサンプリングを仮定できない場合でも頑健な推定ができる。

提案手法 Deep Response Model は受験者のネットワークと項目のネットワークから成る。

受験者ネットワーク

\(i\)番目の受験者の応答は、\(i\)番目の要素のみが1のone-hot vector \(\boldsymbol{s}_i \in \mathbb{R}^{I}\)を入力とし、\((\boldsymbol{s}_i, \boldsymbol{\theta}_1^{(i)}, \boldsymbol{\theta}_2^{(i)}, \theta_3^{(i)})\)の4層をもつDNNとする(\(\theta_3^{(i)}\)はスカラー)。

\[\begin{split} \begin{aligned} \boldsymbol{\theta}_1^{(i)} &= \tanh \left( \boldsymbol{W}^{(\theta_1)} s_i + \boldsymbol{\tau}^{(\theta_1)} \right) \\ \boldsymbol{\theta}_2^{(i)} &= \tanh \left( \boldsymbol{W}^{(\theta_2)} \boldsymbol{\theta}_1^{(i)} + \boldsymbol{\tau}^{(\theta_2)} \right) \\ \theta_3^{(i)} &= \boldsymbol{W}^{(\theta_3)} \boldsymbol{\theta}_2^{(i)} + \tau^{(\theta_3)} \end{aligned} \end{split}\]

\(\boldsymbol{W}^{(\theta_l)}\)は重み行列、\(\tau^{(\theta_l)}\)はバイアスパラメータである。

項目ネットワーク

こちらも同様に\(j\)番目の項目が1のone-hot vector \(\boldsymbol{q}_j \in \mathbb{R}^{J}\)を入力とし、\((\boldsymbol{q}_j, \boldsymbol{\beta}_1^{(j)}, \boldsymbol{\beta}_2^{(j)}, \beta_3^{(j)})\)の4層のDNNとする。

\[\begin{split} \begin{aligned} \boldsymbol{\beta}_1^{(j)} &= \tanh \left( \boldsymbol{W}^{\beta_1} \boldsymbol{q}_j + \boldsymbol{\tau}^{\beta_1} \right) \\ \boldsymbol{\beta}_2^{(j)} &= \tanh \left( \boldsymbol{W}^{\beta_2} \boldsymbol{\beta}_1^{(j)} + \boldsymbol{\tau}^{\beta_2} \right) \\ \beta_3^{(j)} &= \boldsymbol{W}^{\beta_3} \boldsymbol{\beta}_2^{(j)} + \tau^{\beta_3} \end{aligned} \end{split}\]

出力

IRTのパラメータ解釈に倣い、受検者の能力パラメータと項目の難易度パラメータの差を用いて、受検者の項目への反応をモデル化する

\[ \boldsymbol{h}^{(i, j)}=\left(\boldsymbol{W}^{(y)}\right)^\top \left(\theta_3^{(i)}-\beta_3^{(j)}\right)+\tau^{(y)} \]
\[\begin{split} \begin{aligned} \hat{u}_{i, j} & =\operatorname{softmax}\left(\boldsymbol{h}^{(i, j)}\right) \\ & =\frac{\exp \left(h_1^{(i, j)}\right)}{\exp \left(h_0^{(i, j)}\right)+\exp \left(h_1^{(i, j)}\right)} \end{aligned} \end{split}\]

Bayesian Deep-IRT#

Thurstonian Diffusion IRT モデル#

分寺・岡田(2020)「現代的なパーソナリティ測定のためのベイズ統計モデリング」『ベイズ統計学が拓く調査データ解析の最前線』

自然言語の評価#

江原遥. (2024). 項目反応理論に基づく教育のための自然言語処理のモデル. 統計数理= Proceedings of the Institute of Statistical Mathematics, 72(1), 23-41.

Item response theory for natural language processing | Tutorial at EACL 2024

CATのための困難度の予測#

Settles et al. (2020). Machine learning–driven language assessment. Transactions of the Association for computational Linguistics, 8, 247-263.

Duolingo社の研究

Computer Adaptive Testing(CAT)は困難度パラメタが既知の場合に学習者の能力パラメタを逐次的に推定する手法群のことだが、サンプルが少なく困難度パラメタが未知の場合が問題になる(コールドスタート問題)。

そこでテキストの中の特徴から、機械学習と自然言語処理を活用して困難度パラメタを予測してCATを行う方法を提案。

Duolingo English Testというプロダクトで活用しているとのこと。

Ehara, Y. (2022). No Meaning Left Unlearned: Predicting Learners’ Knowledge of Atypical Meanings of Words from Vocabulary Tests for Their Typical Meanings. International Educational Data Mining Society.