LLM-Boost#
GBDTにLLMを組み合わせた研究
Algorithm#
分類問題を想定する。
[2304.13188] TABLET: Learning From Instructions For Tabular Data で提案されたツールを使ってテーブルの各サンプルをfew-shot learningするプロンプトを作る(Figure 2がその例)
LLMによって出力したクラスラベルの負のlanguage modelling loss (mean reduced cross-entropy) をnormalizeされていない予測スコアとする。
出力は異なるトークン数になりうるためmeanをとる(例:”Greater than 50K” と “Less than or equal to 50K”など)
予測スコアからその平均値を引いて中心化する
こうして得られたスコア(transformer score)をもとにGBDTを学習する。