LLMの評価#
評価方法#
Chang, et al. (2024). A survey on evaluation of large language models.
自動評価(Automatic Evaluation)#
精度(Accuracy)の観点では、
Exact Match :文章生成タスクで、参考回答(reference answer)とまったく一緒だったかどうか、\(\{0,1\}\)
F1 score :PrecisionとRecallの調和平均\(\text{F1 score} = \frac{2 \times \text{Precision} \times \text{Recall} }{ \text{Precision} + \text{Recall} }\)
ROUGE :文章要約において、生成された要約文と人が作成した要約文がどれくらい一致しているかを測る
Calibration(confidence level予測)の観点では
Expected Calibration Error (ECE)
Area Under the Curve (AUC)
Robustnessの観点では
Attack Success Rate (ASR): 攻撃の成功率
Performance Drop Rate (PDR): prompt attackの後の性能悪化率
人による評価(Human Evaluation)#
Human-in-the-loop testing:人間のフィードバックを集める。
Crowd-sourcing testing:クラウドワーカーに外注する。質は落ちるかもしれないが量が確保できる
テスト / IRTによる評価#
手法の概要:LLMで4択テストを生成 → LLM+RAGで解く → テストの成績をIRTで評価
所感:
評価部分については、これまで人間相手に培ってきたIRTの研究成果をそのままLLMへ応用できるのは大きな強みとなりそう。
一方で「どうやって良いテストを生成するか」はなかなかむずかしそう。
ただ、IRTの強みは等化だが、その必要性はあるのか?