表形式データ(Tabular data)の予測#
手法比較#
最新の状況#
Hugging Faceの TabArena というTabular DataのLeaderboardがおそらく最新の比較結果を表示してくれている
過去の比較研究#
When Do Neural Nets Outperform Boosted Trees on Tabular Data? (NeurIPS 2023)
McElfresh et al. (2023). When Do Neural Nets Outperform Boosted Trees on Tabular Data?
19のアルゴリズムを176データセットで比較した
GBDTとNNのどちらを採用するかより、GBDTの少々のパラメータチューニングのほうがよほど重要
唯一の例外はTabPFNで、n=3000のデータでもよく機能するし、平均的に他のアルゴリズムより優れた結果を出していた
特徴量の分布が歪んでいたり不規則性があるときにGBDTはNNよりずっとよいパフォーマンスを出すことがわかった
Tabular Data: Deep Learning is Not All You Need
TabNetなどの登場で「テーブルデータでもDeepが一番」という見方もあった時期
「ハイパーパラメータをちゃんと設定すればXGBoostはTabNetなどのディープラーニングベースのアルゴリズムと同等以上のパフォーマンスになった」という報告
Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021)
表形式データ向けのDLアルゴリズムをレビュー
ResNet系のものとTransformer系を選出して最良のDLアルゴリズムとGBDTと11のデータセットで比較した
その結果、普遍的に(どのデータセットでも)優れたアルゴリズムはないという結論に
NNベースの手法#
TabPFN#
Transformerベースで、膨大な合成データによる事前学習が行われている。
LLMと同様にIn-context Learningの考え方を使用しており、Zero-shot予測も可能