LLMの評価

Contents

LLMの評価#

評価方法#

Chang, et al. (2024). A survey on evaluation of large language models.

自動評価（Automatic Evaluation）#

精度（Accuracy）の観点では、

Exact Match ：文章生成タスクで、参考回答（reference answer）とまったく一緒だったかどうか、 ${0, 1}$
F1 score ：PrecisionとRecallの調和平均 $F1 score = \frac{2 \times Precision \times Recall}{Precision + Recall}$
ROUGE ：文章要約において、生成された要約文と人が作成した要約文がどれくらい一致しているかを測る
- 参考：ROUGEを訪ねて三千里:より良い要約の評価を求めて #Python - Qiita

Calibration（confidence level予測）の観点では

Expected Calibration Error (ECE)
Area Under the Curve (AUC)

Robustnessの観点では

Attack Success Rate (ASR): 攻撃の成功率
Performance Drop Rate (PDR): prompt attackの後の性能悪化率

人による評価（Human Evaluation）#

Human-in-the-loop testing：人間のフィードバックを集める。
Crowd-sourcing testing：クラウドワーカーに外注する。質は落ちるかもしれないが量が確保できる

テスト / IRTによる評価#

手法の概要：LLMで4択テストを生成 → LLM+RAGで解く → テストの成績をIRTで評価

所感：

評価部分については、これまで人間相手に培ってきたIRTの研究成果をそのままLLMへ応用できるのは大きな強みとなりそう。
一方で「どうやって良いテストを生成するか」はなかなかむずかしそう。
ただ、IRTの強みは等化だが、その必要性はあるのか？

参考#

菅原朔, 村脇有吾, & 宮尾祐介. (2024). 大規模言語モデルの評価とその課題. 人工知能, 39(6), 788-796.