なぜTree-based modelはDeep Learningよりテーブルデータに強いのか

なぜTree-based modelはDeep Learningよりテーブルデータに強いのか#

When Do Neural Nets Outperform Boosted Trees on Tabular Data?#

McElfresh et al. (2023). When Do Neural Nets Outperform Boosted Trees on Tabular Data?.

方法:

  • 19のアルゴリズムを176データセットで比較した(比較するコードも公開)

結果:

  • GBDTとNNのどちらを採用するかより、GBDTの少々のパラメータチューニングのほうがよほど重要

    • 唯一の例外はTabPFNで、n=3000のデータでもよく機能するし、平均的に他のアルゴリズムより優れた結果を出していた

  • 特徴量の分布が歪んでいたり不規則性があるときにGBDTはNNよりずっとよいパフォーマンスを出すことがわかった

Why do tree-based models still outperform deep learning on tabular data?#

Grinsztajn et al. (2022). Why do tree-based models still outperform deep learning on typical tabular data?. Advances in Neural Information Processing Systems, 35, 507-520.

Finding 1: NNs are biased to overly smooth solutions

  • NNsは滑らかすぎる予測値を出すバイアスがある。

  • 目的変数にガウシアン平滑化を加えた場合、tree-based modelsの予測精度は顕著に上昇したもの、NNsにとってはほとんど影響がなかった

Finding 2: Uninformative features affect more MLP-like NNs

  • MLP-likeなNNは有益な情報が少ない特徴量に対して頑健性が低い

Finding 3: Data are non invariant by rotation, so should be learning procedures

  • MLPがuninformative featuresに弱い理由の一つは回転不変性である

    • MLPはユニタリ行列でtrain/test両方を回転させたとしても性能が変わらない

  • Figure 6はデータセットを回転させたときのtest accuracyを示している

    • Resnetだけが変わらないaccuracyを示し、tree-based modelsよりNNsが上になった