なぜTree-based modelはDeep Learningよりテーブルデータに強いのか#
When Do Neural Nets Outperform Boosted Trees on Tabular Data?#
McElfresh et al. (2023). When Do Neural Nets Outperform Boosted Trees on Tabular Data?.
方法:
19のアルゴリズムを176データセットで比較した(比較するコードも公開)
結果:
GBDTとNNのどちらを採用するかより、GBDTの少々のパラメータチューニングのほうがよほど重要
唯一の例外はTabPFNで、n=3000のデータでもよく機能するし、平均的に他のアルゴリズムより優れた結果を出していた
特徴量の分布が歪んでいたり不規則性があるときにGBDTはNNよりずっとよいパフォーマンスを出すことがわかった
Why do tree-based models still outperform deep learning on tabular data?#
Finding 1: NNs are biased to overly smooth solutions
NNsは滑らかすぎる予測値を出すバイアスがある。
目的変数にガウシアン平滑化を加えた場合、tree-based modelsの予測精度は顕著に上昇したもの、NNsにとってはほとんど影響がなかった
Finding 2: Uninformative features affect more MLP-like NNs
MLP-likeなNNは有益な情報が少ない特徴量に対して頑健性が低い
Finding 3: Data are non invariant by rotation, so should be learning procedures
MLPがuninformative featuresに弱い理由の一つは回転不変性である
MLPはユニタリ行列でtrain/test両方を回転させたとしても性能が変わらない
Figure 6はデータセットを回転させたときのtest accuracyを示している
Resnetだけが変わらないaccuracyを示し、tree-based modelsよりNNsが上になった