Deep Learning and Tabular data#
テーブルデータ向けのディープラーニング手法や関連する議論について。
TabNet#
Arik et al. (2021, May). Tabnet: Attentive interpretable tabular learning.
決定木と同様の演算ができるように工夫されたアーキテクチャの手法
特徴選択や非線形の特徴変換などのディープラーニングならではの改良も含む
猫でもわかるTabNet - Speaker Deck がわかりやすかった
TabPFN#
テーブルデータとDeep Learningは相性がよくない?#
Deep Learning is Not All You Need#
[2106.03253] Tabular Data: Deep Learning is Not All You Need
TabNetなどの登場で「テーブルデータでもDeepが一番」という見方もあった時期だが、ハイパーパラメータをちゃんと設定すればXGBoostはTabNetなどのディープラーニングベースのアルゴリズムと同等以上のパフォーマンスになったという報告
方法:
ベイズ最適化による客観的なハイパーパラメータ設定の下でテーブルデータ向けのディープラーニング系手法とGBDTを比較した
結果:
XGBoostはDL系手法と同等かそれ以上のパフォーマンスを出した(複数のデータセットで、1番ではないものの安定して2番手くらいにくる精度)
DL系手法は、論文中で使っていたデータセットにおいてはその手法が高いパフォーマンスを出していたが、他のデータセットでは一貫したパフォーマンスは出なかった
考察:
データセットのセレクションバイアス
ハイパーパラメータ調整の問題
DL系手法を提案した研究たちは、比較手法として用意したXGBoostのハイパーパラメータの調整が不十分だったために圧倒的なパフォーマンスに見えた