表形式データ（Tabular data）の予測

表形式データ（Tabular data）の予測#

When Do Neural Nets Outperform Boosted Trees on Tabular Data? (NeurIPS 2023)

19のアルゴリズムを176データセットで比較した
GBDTとNNのどちらを採用するかより、GBDTの少々のパラメータチューニングのほうがよほど重要
- 唯一の例外はTabPFNで、n=3000のデータでもよく機能するし、平均的に他のアルゴリズムより優れた結果を出していた
特徴量の分布が歪んでいたり不規則性があるときにGBDTはNNよりずっとよいパフォーマンスを出すことがわかった

Tabular Data: Deep Learning is Not All You Need

TabNetなどの登場で「テーブルデータでもDeepが一番」という見方もあった時期

「ハイパーパラメータをちゃんと設定すればXGBoostはTabNetなどのディープラーニングベースのアルゴリズムと同等以上のパフォーマンスになった」という報告

Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021)

Transformerベースで、膨大な合成データによる事前学習が行われている。

LLMと同様にIn-context Learningの考え方を使用しており、Zero-shot予測も可能

複数のMLPを並列で学習させてアンサンブルする手法