DMLパッケージで試してみる

DMLパッケージで試してみる#

Partially Linear Regression Model#

\begin{array}{r} \begin{matrix} \begin{aligned} Y = D θ_{0} + g_{0} (X) + ζ, & E (ζ | D, X) = 0, \\ D = m_{0} (X) + V, & E (V | X) = 0, \end{aligned} \end{matrix} \end{array}

doubleml.DoubleMLPLR — DoubleML documentation

class doubleml.DoubleMLPLR(obj_dml_data, ml_l, ml_m, ml_g=None, n_folds=5, n_rep=1, score='partialling out', draw_sample_splitting=True)

nuisance functions

ml_lは $ℓ_{0} (X) = E [Y | X]$
ml_mは $m_{0} (X) = E [D | X]$
ml_gは $g_{0} (X) = E [Y - D θ_{0} | X]$ で、scoreが'IV-type'のときのみ使われる

デフォルトのscoreが'partialling out'で、これはRobinson (1988）の

ψ (W; θ, η) := {Y - ℓ (X) - θ (D - m (X))} (D - m (X)), η = (ℓ, m)

というタイプのスコア関数であり、推定量としては

Y - \underset{ℓ_{0} (X)}{\underset{⏟}{E [Y | X]}} = θ_{0} (D - \underset{m_{0} (X)}{\underset{⏟}{E [D | X]}}) + U

という、残差回帰タイプの推定量をもたらす。

import numpy as np
import doubleml as dml
from doubleml.datasets import make_plr_CCDDHNR2018
from sklearn.ensemble import RandomForestRegressor
from sklearn.base import clone
np.random.seed(0)
learner = RandomForestRegressor(n_estimators=100, max_features=20, max_depth=5, min_samples_leaf=2, random_state=0)
ml_g = learner
ml_m = learner
obj_dml_data = make_plr_CCDDHNR2018(alpha=0.5, n_obs=500, dim_x=20)
dml_plr_obj = dml.DoubleMLPLR(obj_dml_data, ml_g, ml_m)
dml_plr_obj.fit().summary

/usr/local/lib/python3.10/site-packages/sklearn/utils/deprecation.py:151: FutureWarning: 'force_all_finite' was renamed to 'ensure_all_finite' in 1.6 and will be removed in 1.8.
  warnings.warn(
/usr/local/lib/python3.10/site-packages/sklearn/utils/deprecation.py:151: FutureWarning: 'force_all_finite' was renamed to 'ensure_all_finite' in 1.6 and will be removed in 1.8.
  warnings.warn(

	coef	std err	t	P>\|t\|	2.5 %	97.5 %
d	0.438602	0.048179	9.10358	8.740236e-20	0.344173	0.533032

doubleml-for-py/doubleml/plm/plr.py at main · DoubleML/doubleml-for-py

DMLパッケージで試してみる

Contents

DMLパッケージで試してみる#

Partially Linear Regression Model#