Symbolic Data Analysis#
発端#
ロジスティック回帰は基本的なモデルだけどクソデカデータだと計算量が法外にデカくなる
説明変数をヒストグラムの形に集計してそれを基に推定すれば計算量と精度のいいとこどり出来るのでは?
Symbolic Data Analysis (SDA)の考えが拡張できると考えた
(論文:[1912.03805] Logistic regression models for aggregated data)
SDAとは
Symbolic Data#
Symbolic data analysis (SDA) is an emerging area of statistics concerned with understanding and modelling data that takes distributional form (i.e. symbols), such as random lists, intervals and histograms. ([1809.03659] New models for symbolic data analysis)
LightGBMとかのHistogram-based Treeと似てる感じだが最尤推定を行う