表形式データ(Tabular data)の予測#
手法比較#
最新の状況#
Hugging Faceの TabArena というTabular DataのLeaderboardがおそらく最新の比較結果を表示してくれている
過去の比較研究#
McElfresh et al. (2023). When Do Neural Nets Outperform Boosted Trees on Tabular Data?
19のアルゴリズムを176データセットで比較した
GBDTとNNのどちらを採用するかより、GBDTの少々のパラメータチューニングのほうがよほど重要
唯一の例外はTabPFNで、n=3000のデータでもよく機能するし、平均的に他のアルゴリズムより優れた結果を出していた
特徴量の分布が歪んでいたり不規則性があるときにGBDTはNNよりずっとよいパフォーマンスを出すことがわかった
TabNetなどの登場で「テーブルデータでもDeepが一番」という見方もあった時期
「ハイパーパラメータをちゃんと設定すればXGBoostはTabNetなどのディープラーニングベースのアルゴリズムと同等以上のパフォーマンスになった」という報告
表形式データ向けのDLアルゴリズムをレビュー
ResNet系のものとTransformer系を選出して最良のDLアルゴリズムとGBDTと11のデータセットで比較した
その結果、普遍的に(どのデータセットでも)優れたアルゴリズムはないという結論に
NNベースの手法#
TabPFN#
Transformerベースで、膨大な合成データによる事前学習が行われている。
LLMと同様にIn-context Learningの考え方を使用しており、Zero-shot予測も可能
TabM: Advancing Tabular Deep Learning With Parameter-Efficient Ensembling” (ICLR 2025)#
GitHub: yandex-research/tabm(tabm パッケージ)
複数のMLPを並列で学習させてアンサンブルする手法
参考#
yandex-research/rtdl: Research on Tabular Deep Learning: Papers & Packages
yandexのTabular Deep Learning研究のまとめ