不均衡データ

不均衡データ#

不均衡データ（imbalanced data）は目的変数の分布が極端に偏っているためにおこる問題。

例えば目的変数が\(y\in \{0, 1\}\)の二値分類において1が90%あるデータの場合、全てに対して1を予測するだけのアルゴリズムであっても正解率（accuracy）は90%になる

きちんと分類できるデータであれば不均衡であってもきちんと分類できるが、そうでない場合は不均衡具合に影響を受けてしまう

きちんと分類できない領域については、サンプリングや誤差関数への重み付けなどにより均衡データに近づけて学習させる方法がある。

ただし、その場合は均衡データとして学習している（例えば二値分類なら50%/50%）ので、予測の確率値も50%がしきい値となるような高い値が出てくるため、確率をカリブレーション（calibration）して戻す必要がある

accuracy: 0.885
balanced_accuracy: 0.557
recall: 0.12
precision: 0.75
f1_score: 0.207

accuracy: 1
balanced_accuracy: 1
recall: 1
precision: 1
f1_score: 1