LLM-Boost

Contents

LLM-Boost#

GBDTにLLMを組み合わせた研究

Jayawardhana, M., Tu, R., Dooley, S., Cherepanova, V., Wilson, A. G., Hutter, F., … & Goldblum, M. (2025). Transformers Boost the Performance of Decision Trees on Tabular Data across Sample Sizes. arXiv preprint arXiv:2502.02672.

Algorithm#

分類問題を想定する。

  1. [2304.13188] TABLET: Learning From Instructions For Tabular Data で提案されたツールを使ってテーブルの各サンプルをfew-shot learningするプロンプトを作る(Figure 2がその例)

  2. LLMによって出力したクラスラベルの負のlanguage modelling loss (mean reduced cross-entropy) をnormalizeされていない予測スコアとする。

    • 出力は異なるトークン数になりうるためmeanをとる(例:”Greater than 50K” と “Less than or equal to 50K”など)

  3. 予測スコアからその平均値を引いて中心化する

  4. こうして得られたスコア(transformer score)をもとにGBDTを学習する。