不均衡データ#
不均衡データ(imbalanced data)は目的変数の分布が極端に偏っているためにおこる問題。
例えば目的変数が\(y\in \{0, 1\}\)の二値分類において1が90%あるデータの場合、全てに対して1を予測するだけのアルゴリズムであっても正解率(accuracy)は90%になる
きちんと分類できるデータであれば不均衡であってもきちんと分類できるが、そうでない場合は不均衡具合に影響を受けてしまう
きちんと分類できない領域については、サンプリングや誤差関数への重み付けなどにより均衡データに近づけて学習させる方法がある。
ただし、その場合は均衡データとして学習している(例えば二値分類なら50%/50%)ので、予測の確率値も50%がしきい値となるような高い値が出てくるため、確率をカリブレーション(calibration)して戻す必要がある
上手く分類できないデータの場合#
accuracy: 0.885
balanced_accuracy: 0.557
recall: 0.12
precision: 0.75
f1_score: 0.207
分類しやすいデータの場合#
accuracy: 1
balanced_accuracy: 1
recall: 1
precision: 1
f1_score: 1