勾配法#

モデルのパラメータw=(w0,...,wd)を変えて誤差関数L(w)を最小化する問題

minwL(w)

を考える。

勾配法あるいは勾配降下法(gradient descent method)は勾配を用いる最適化手法の総称である。

基本的に反復計算によって徐々に勾配を下っていき最適化を行う。t回目の反復における点xtについて、探索方向dtとステップ幅αtを用いて

xt+1=xt+αtdt

という更新を反復していく

最急降下法#

最急降下法(steepest descent method)は負の勾配f(x)=f(x)xの方向にxを更新して最適化していく。

つまり探索方向dt=f(x)ということである。

ステップ幅αtは固定値で行う方法もあるし、動的に変化させる方法もある。

t+1回目の反復(iteration)におけるx

xt+1=xtαtf(xt)

のように算出される

import matplotlib.pyplot as plt
import numpy as np


def f(x):
    return x ** 2

def grad(x):
    return 2 * x

fig, ax = plt.subplots()
x = np.linspace(-1, 1)
ax.plot(x, f(x), label="f(x)")

x = 0.7
eta = 0.3
for i in range(5):
    x = x - eta * grad(x)
    ax.scatter(x, f(x), label=f"Iter{i} | x={x:.1f}, f(x)={f(x):.3f}, grad(x)={grad(x):.3f}")
ax.legend()
fig.show()
../../_images/1e1cf412657b5d72bc6a56df51cebc9538cd8ac5a60384c2648db45935c5bf6d.png
# 機械学習っぽい想定をしたバージョン
import numpy as np

np.random.seed(0)
w_true = np.array([3])
X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)
e = np.random.normal(scale=0.1, size=X.shape[0]).round(1)
y_true = X @ w_true + e


def model(w): # linear model
    return X @ w

def loss(y_true, y_pred): # squared loss
    return (1/2) * (y_true - y_pred)**2

def grad(y_true, y_pred):
    return (y_true - y_pred)


w = np.random.normal(size=X.shape[1]) # initialize
eta = 0.1
for i in range(5):  # 本当はLossが一定値未満になるまでwhileでループする
    y_pred = model(w)
    print(f"""
Iteration {i}
    MSE = {np.mean(loss(y_true, y_pred)):.3f}
    gradients for each sample = {grad(y_true, y_pred).round(1)}
""".strip())

    # update
    w = w + eta * sum(grad(y_true, y_pred))

print(f"""
Final Model:
    estimated weights: {w}
    true weights: {w_true}
    predicted values : {model(w).round(1)}
    true target values: {y_true.round(1)}
""")
Iteration 0
    MSE = 88.846
    gradients for each sample = [ 4.2  8.  12.  16.1 20.1]
Iteration 1
    MSE = 22.375
    gradients for each sample = [ -1.9  -4.1  -6.1  -8.  -10.1]
Iteration 2
    MSE = 5.516
    gradients for each sample = [1.2 1.9 3.  4.  5. ]
Iteration 3
    MSE = 1.422
    gradients for each sample = [-0.3 -1.1 -1.5 -2.  -2.5]
Iteration 4
    MSE = 0.338
    gradients for each sample = [0.4 0.4 0.7 1.  1.2]

Final Model:
    estimated weights: [3.17241493]
    true weights: [3]
    predicted values : [ 3.2  6.3  9.5 12.7 15.9]
    true target values: [ 3.2  6.   9.1 12.2 15.2]

ニュートン法#

ニュートン法(Newton’s method)は勾配だけでなくヘッセ行列の情報も用いる。ステップ幅は固定である

  • 探索方向dt=(2f(xt))1f(xt)

  • ステップ幅αt=1

xt+1=xt(2f(xt))1f(xt)

テイラーの定理(テイラー展開)で2次まで使ったときの最適解が上記の探索方向となる

導出(xがスカラーの場合)#

(局所)最適解は

f(x)=ddxf(x)=0

を満たす。f(x)x=xtの周りでテーラー展開すると

0=f(x)=f(xt)+f(xt)(xxt)+O(1)

となり、これを整理すると

x=xt+f(xt)f(xt)+O(n1)

となる。

よって

xt+1=xtf(xt)f(xt)

のように更新していく

Note

テイラーの定理 関数f:RnRが1回微分可能のとき、x,δRnに対して実数c(0,1)が存在して

f(x+δ)=f(x)+f(x+cδ)δ

が成り立つ。また2回微分可能なとき、

f(x+δ)=f(x)+f(x)δ+12δ2f(x+cδ)δ

が成り立つ。

別の見方#

ニュートン法はある関数がゼロになる条件を求めるアルゴリズムであるとも考えられる。

f(x)=0

を求める場合は

xt+1=xtf(xt)f(xt)

となり、

f(x)=0

を求める場合は

xt+1=xtf(xt)f(xt)

となる。

疑問#

f(x)=x2のとき、

xt+1=xtf(xt)f(xt)=xt2xt2=0

となってうまく動作しない

def f(x):
    return x ** 2

def grad(x):
    return 2 * x


fig, ax = plt.subplots()
x = np.linspace(-1, 1)
ax.plot(x, f(x), label="f(x)")
ax.plot(x, grad(x), label="grad(x)")
ax.legend()
fig.show()
../../_images/1f34149bffaddda877e106c0d24fd6ad62f149c0b1dd59e74f8613c1b6957e08.png
def f(x):
    return x ** 2

def grad(x):
    return 2 * x


fig, ax = plt.subplots()
x = np.linspace(-1, 1)
ax.plot(x, f(x), label="f(x)")

x = 0.7
for i in range(5):
    x = x - (f(x) / grad(x))
    ax.scatter(x, f(x), label=f"Iter{i} | x={x:.1f}, f(x)={f(x):.3f}, grad(x)={grad(x):.3f}")
ax.legend()
fig.show()
../../_images/b0e2a68c104abb1caf32e0152c89437473f906c13391a0f8ab3e2f12a832c9d4.png
def hess(x):
    return 2

fig, ax = plt.subplots()
x = np.linspace(-1, 1)
ax.plot(x, f(x), label="f(x)")

x = 0.7
for i in range(5):
    x = x - (grad(x) / hess(x))
    ax.scatter(x, f(x), label=f"Iter{i} | x={x:.1f}, f(x)={f(x):.3f}, grad(x)={grad(x):.3f}")
ax.legend()
fig.show()
../../_images/b91120cbfedbcbc641b8c21a5e5096477addbc4577e2f1a1eff0d376c3dfa805.png