対数変換

対数変換#

目的変数や説明変数を対数変換すると、推定結果の解釈が変わる

モデル	係数の解釈
$Y = β_{0} + β_{1} X$	「 $X$ が1単位増加すると， $Y$ が $β_{1}$ 単位増加する」
$Y = β_{0} + β_{1} \ln (X)$	「 $X$ が1%増加すると， $Y$ が $β_{1} / 100$ 単位増加する」
$\ln (Y) = β_{0} + β_{1} X$	「 $X$ が1単位増加すると， $Y$ が $(β_{1} \times 100)$ %増加する」
$\ln (Y) = β_{0} + β_{1} \ln (X)$	「 $X$ が1%増加すると， $Y$ が $β_{1}$ %増加する」

次のようなデータを使って実際にモデルをあてはめつつ確認していく

../../_images/871b9096c23c280b1119ad8562fb8efedf484947f1975878694d284d56554359.png

(1) $Y = β_{0} + β_{1} X$ #

Xを1単位増加させたモデルとそうでないモデルで差分をとってみると

\begin{array}{r} \begin{aligned} Y_{1} & = β_{0} + β_{1} X \\ Y_{2} & = β_{0} + β_{1} (X + 1) \\ = β_{0} + β_{1} X + β_{1} \\ Y_{2} - Y_{1} & = β_{1} \end{aligned} \end{array}

であるため、「 $X$ が1単位増加すると、 $Y$ が $β_{1}$ 単位増加する」という解釈になる

../../_images/bc0a8ae4f2ae3477060bd89d6bd97f508b96788b9890ade70762a369a35e9d00.png

(2) $Y = β_{0} + β_{1} \ln (X)$ #

\begin{array}{r} \begin{aligned} Y_{1} & = β_{0} + β_{1} \ln (X) \\ Y_{2} & = β_{0} + β_{1} \ln (1.01 X) \\ = β_{0} + β_{1} \ln (X) + β_{1} \ln (1.01) \\ Y_{2} - Y_{1} & = β_{1} \ln (1.01) \end{aligned} \end{array}

$\ln (1.01) \approx 0.01$ なので

Y_{2} - Y_{1} = β_{1} \ln (1.01) \approx 0.01 β_{1}

「 $X$ が1%増加すると、 $Y$ が $β_{1} / 100$ 単位増加する」となる

../../_images/11ea5b8ca7393ba324e856d521a411465071a8ff54f7aace18fd4bd77b196f05.png

np.log(1.01)

0.009950330853168092

x0 = 50
y1 = beta[0] + beta[1] * np.log(x0)
y2 = beta[0] + beta[1] * np.log(x0 * 1.01)
print(f"xが1%増加したときのyの増分 = {y2 - y1:.3f}")

xが1%増加したときのyの増分 = 0.825

$\ln (1.01) \approx 0.01$ の近似誤差が多少あるが、おおむね「 $X$ が1%増加すると、 $Y$ が $β_{1} / 100$ 単位増加する」という関係になる。

(3) $\ln (Y) = β_{0} + β_{1} X$ #

\begin{array}{r} \begin{aligned} Y_{1} & = \exp (β_{0} + β_{1} X) \\ Y_{2} & = \exp (β_{0} + β_{1} (X + 1)) \\ = \exp (β_{0} + β_{1} X + β_{1}) \end{aligned} \end{array}

$X$ を1単位増やしたときの $Y$ の変化率は

\begin{array}{r} \begin{aligned} \frac{Y_{2} - Y_{1}}{Y_{1}} = \frac{Y_{2}}{Y_{1}} - 1 & = \frac{\exp (β_{0}) \exp (β_{1} X) \exp (β_{1})}{\exp (β_{0}) \exp (β_{1} X)} - 1 \\ = \exp (β_{1}) - 1 \end{aligned} \end{array}

$β_{1}$ が十分に小さいとき、 $\exp (β_{1}) - 1 \approx β_{1}$

そのため $X$ が1単位増えると、 $Y$ は $\exp (β_{1}) - 1 \approx β_{1}$ ％増える

「 $X$ が1単位増加すると、 $Y$ が $(β_{1} \times 100)$ %増加する」

Note

「十分に小さいとき」とは？

下図のように、 $x$ が大きくなるに連れて誤差は増える。

../../_images/094a5cd49b78f80429c1480f35636b8a016d933383556746594c3a9d4d97dbe9.png

$x$ が $0.2$ であれば近似誤差は $0.02$ 程度となる。

$x$ が $0.4$ であれば近似誤差は $0.1$ 程度となる。

大まかな目安としては、推定量 $β$ が0.2を超えるくらいになると近似誤差に気をつけたほうがよさそう

Note

別の式変形のしかた

\begin{array}{r} \begin{aligned} \ln (Y_{1}) & = β_{0} + β_{1} X \\ \ln (Y_{2}) & = β_{0} + β_{1} (X + 1) \\ = β_{0} + β_{1} X + β_{1} \end{aligned} \end{array}

差し引きすれば

\ln (Y_{2}) - \ln (Y_{1}) = β_{1}

ここで $\log_{a} (A) - \log_{a} (B) = \log_{a} (\frac{A}{B})$ より

\ln (\frac{Y_{2}}{Y_{1}}) = β_{1}

両辺を指数関数に入れると

\frac{Y_{2}}{Y_{1}} = \exp (β_{1})

両辺から1を引けば

\frac{Y_{2}}{Y_{1}} - 1 = \exp (β_{1}) - 1

../../_images/6b046d77232f6e07cbf8028ab9c46c60b11e618b2b77f92424eb471bfa8e4f0a.png

x0 = 50
y1 = beta[0] + beta[1] * x0
y2 = beta[0] + beta[1] * (x0 + 1)
print(f"xが1単位増加したときのyの増分 = {y2 - y1:.3f}")

xが1単位増加したときのyの増分 = 0.013

(4) $\ln (Y) = β_{0} + β_{1} \ln (X)$ #

「 $X$ が1%増加すると、 $Y$ が $β_{1}$ %増加する」

../../_images/cc9955b88d4f8bcf909f0e8472bb2fc10922d060d5103f780fe3e975c8b1c600.png

x0 = 50
y1 = beta[0] + beta[1] * np.log(x0)
y2 = beta[0] + beta[1] * np.log(x0 + 1)
print(f"xが1%増加したときのyの増分 = {y2 - y1:.3f}")

xが1%増加したときのyの増分 = 0.008

y1 = model.predict(pd.DataFrame([{"x": x0}])).to_numpy()[0]
y2 = model.predict(pd.DataFrame([{"x": x0 + 1}])).to_numpy()[0]
print(f"xが1単位増加したときのyの増分 = {y2 - y1:.3f}")

xが1単位増加したときのyの増分 = 0.008

別データ例：賃金データ#

RのAERパッケージに含まれるCPS1985という1985年の賃金のデータを例に取る。教育年数が1年ふえるごとに賃金は何%増えるのだろうか。

  Cell In[12], line 8
    )axes[0].set(xlabel="education", ylabel="wage")
     ^
SyntaxError: invalid syntax

モデルに投入するeducationの値が1上がるごとに、概ね0.079 = 7.9%程度上がる

reg = smf.ols('log_wage ~ education', data=cps).fit()
test = pd.DataFrame({"education": range(21)})
test["log_wage_pred"] = reg.predict(test)  # 予測値を入れる
test["wage_pred"] = np.exp(test["log_wage_pred"])
test["wage_pred_diff"] = test["wage_pred"].diff()
test["wage_pred_change"] = test["wage_pred"].pct_change()
test["log_wage_pred_change"] = test["log_wage_pred"].pct_change()
test.head(10)

	education	log_wage_pred	wage_pred	wage_pred_diff	wage_pred_change	log_wage_pred_change
0	0	1.059890	2.886053	NaN	NaN	NaN
1	1	1.136648	3.116306	0.230253	0.079781	0.072421
2	2	1.213407	3.364929	0.248623	0.079781	0.067531
3	3	1.290166	3.633388	0.268459	0.079781	0.063259
4	4	1.366924	3.923265	0.289877	0.079781	0.059495
5	5	1.443683	4.236268	0.313003	0.079781	0.056154
6	6	1.520441	4.574243	0.337975	0.079781	0.053169
7	7	1.597200	4.939182	0.364939	0.079781	0.050484
8	8	1.673958	5.333237	0.394055	0.079781	0.048058
9	9	1.750717	5.758730	0.425493	0.079781	0.045855

対数変換

Contents

対数変換#

(1) Y=β0+β1X#

(2) Y=β0+β1ln⁡(X)#

(3) ln⁡(Y)=β0+β1X#

(4) ln⁡(Y)=β0+β1ln⁡(X)#

別データ例：賃金データ#

(1) $Y = β_{0} + β_{1} X$ #

(2) $Y = β_{0} + β_{1} \ln (X)$ #

(3) $\ln (Y) = β_{0} + β_{1} X$ #

(4) $\ln (Y) = β_{0} + β_{1} \ln (X)$ #