Deep Learning and Tabular data#

テーブルデータ向けのディープラーニング手法や関連する議論について。

TabNet#

Arik et al. (2021, May). Tabnet: Attentive interpretable tabular learning.

  • 決定木と同様の演算ができるように工夫されたアーキテクチャの手法

  • 特徴選択や非線形の特徴変換などのディープラーニングならではの改良も含む

猫でもわかるTabNet - Speaker Deck がわかりやすかった

TabPFN#

テーブルデータとDeep Learningは相性がよくない?#

Deep Learning is Not All You Need#

[2106.03253] Tabular Data: Deep Learning is Not All You Need

TabNetなどの登場で「テーブルデータでもDeepが一番」という見方もあった時期だが、ハイパーパラメータをちゃんと設定すればXGBoostはTabNetなどのディープラーニングベースのアルゴリズムと同等以上のパフォーマンスになったという報告

方法:

  • ベイズ最適化による客観的なハイパーパラメータ設定の下でテーブルデータ向けのディープラーニング系手法とGBDTを比較した

結果:

  • XGBoostはDL系手法と同等かそれ以上のパフォーマンスを出した(複数のデータセットで、1番ではないものの安定して2番手くらいにくる精度)

  • DL系手法は、論文中で使っていたデータセットにおいてはその手法が高いパフォーマンスを出していたが、他のデータセットでは一貫したパフォーマンスは出なかった

考察:

  1. データセットのセレクションバイアス

  2. ハイパーパラメータ調整の問題

    • DL系手法を提案した研究たちは、比較手法として用意したXGBoostのハイパーパラメータの調整が不十分だったために圧倒的なパフォーマンスに見えた

なぜデーブルデータではディープラーニングが弱いのか#

なぜTree-based modelはDeep Learningよりテーブルデータに強いのか