表形式データ(Tabular data)の予測

表形式データ(Tabular data)の予測#

手法比較#

最新の状況#

Hugging Faceの TabArena というTabular DataのLeaderboardがおそらく最新の比較結果を表示してくれている

過去の比較研究#

When Do Neural Nets Outperform Boosted Trees on Tabular Data? (NeurIPS 2023)

McElfresh et al. (2023). When Do Neural Nets Outperform Boosted Trees on Tabular Data?

  • 19のアルゴリズムを176データセットで比較した

  • GBDTとNNのどちらを採用するかより、GBDTの少々のパラメータチューニングのほうがよほど重要

    • 唯一の例外はTabPFNで、n=3000のデータでもよく機能するし、平均的に他のアルゴリズムより優れた結果を出していた

  • 特徴量の分布が歪んでいたり不規則性があるときにGBDTはNNよりずっとよいパフォーマンスを出すことがわかった

Tabular Data: Deep Learning is Not All You Need

Shwartz-Ziv, R., & Armon, A. (2022). Tabular data: Deep learning is not all you need. Information Fusion, 81, 84-90.

TabNetなどの登場で「テーブルデータでもDeepが一番」という見方もあった時期

「ハイパーパラメータをちゃんと設定すればXGBoostはTabNetなどのディープラーニングベースのアルゴリズムと同等以上のパフォーマンスになった」という報告

Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021)

Gorishniy, Y., Rubachev, I., Khrulkov, V., & Babenko, A. (2021). Revisiting deep learning models for tabular data. Advances in neural information processing systems, 34, 18932-18943.

  • 表形式データ向けのDLアルゴリズムをレビュー

  • ResNet系のものとTransformer系を選出して最良のDLアルゴリズムとGBDTと11のデータセットで比較した

  • その結果、普遍的に(どのデータセットでも)優れたアルゴリズムはないという結論に

NNベースの手法#

TabPFN#

Transformerベースで、膨大な合成データによる事前学習が行われている。

LLMと同様にIn-context Learningの考え方を使用しており、Zero-shot予測も可能

参考#

最新のテーブルデータ向けNNモデルをまとめてみた