過学習と良性の過学習(Double Descent, Grokking)#
過学習(Overfitting)#
訓練データに過剰に適応した結果汎化性能が落ちる
古典的な統計的学習理論の話
Double Descent#
Train Lossが限りなくゼロに近づいても学習を続けることで、Test Lossが上がった後再び下がり始め、最終的によりよいTest Lossを達成する現象。
発見されたのは深層学習だが、他のアルゴリズムにも存在する様子
Flooding#
Train Lossをゼロにしないようにあえてノイズを足してやることで過学習を回避する手法
Double Descentを促す効果があることがわかった
[2002.08709] Do We Need Zero Training Loss After Achieving Zero Training Error?
Grokking#
Double Descentと似ているが少し違う