LOWESS

LOWESS#

散布図に従う近似線を描くために開発された局所回帰。 LOESS (locally estimated scatterplot smoothing) や LOWESS (locally weighted scatterplot smoothing) と呼ばれる。

../_images/ca54b0c10482b6625d1867633bc7f1cce9874b7abbd5873a7855dd37226f49e9.png

LOWESSのアルゴリズム#

Cleveland (1979). に記されたアルゴリズムは以下の通り。

$i$ 番目のサンプルの目的変数 $y_{i}$ を特徴量 $x_{i}$ とノンパラメトリックの平滑化関数 $g (x_{i})$ で近似することを考える。

y_{i} = g (x_{i}) + ϵ_{i}

ここで $ϵ_{i}$ は平均0で分散が一定の確率変数である。

1. 重みの計算と $r$ 個の最近傍サンプルの取得#

$x_{i}$ について、 $j = 1, \dots, n$ にわたって $| x_{i} - x_{j} |$ で距離を測り、 $r$ 番目に近いサンプルとの距離を $h_{i}$ とする。

重み関数 $W (\cdot)$ を用いて、 $k = 1, \dots, n$ について

w_{k} (x_{i}) = W (h_{i}^{- 1} (x_{k} - x_{i}))

を計算する

ここで重み関数 $W (\cdot)$ は以下の性質を満たすものとする

$| x | < 1$ について $W (x) > 0$
$W (- x) = W (x)$
$W (x)$ は $x \geq 0$ について非増加関数
$| x | \geq 1$ について $W (x) = 0$

$h_{i}^{- 1} (x_{k} - x_{i})$ は分子の $x_{k} - x_{i}$ の絶対値が分母の $h_{i}$ より大きければ $| h_{i}^{- 1} (x_{k} - x_{i}) | \geq 1$ になるので重みが0になる。つまり、サンプルとして回帰に使用されなくなる。なので重み関数は近傍の $r$ 個のサンプルを取り出しつつ、 $r$ 個のサンプルにも距離に応じた重みをかける操作となる。

$W$ の例として tricube functionが考えられる

\begin{array}{r} W (x) = {\begin{cases} (1 - | x |^{3})^{3} & for | x | < 1 \\ 0 & for | x | ⩾ 1 \end{cases} \end{array}

../_images/75f9a72542007636aa648af7a7540d10a6086b34a2518287debe5525e8be7eaf.png

2. 多項式回帰のフィッティング#

非線形回帰として $d$ 次の多項式回帰を行う

min_{β_{0}, \dots, β_{d}} \sum_{k = 1}^{n} w_{k} (x_{i}) {(y_{k} - β_{0} - β_{1} x_{k} - \dots - β_{d} x_{k}^{d})}^{2}

{\hat{y}}_{i} = \sum_{j = 0}^{d} {\hat{β}}_{j} (x_{i}) x_{i}^{j}

3. ロバスト性重み $δ$ の計算#

続いて、外れ値の影響を除外するための重みを計算する。 bisquare weight function $B (x)$ を以下のように定義する

\begin{array}{r} B (x) = {\begin{cases} (1 - x^{2})^{2} & for | x | < 1 \\ 0 & for | x | ⩾ 1 \end{cases} \end{array}

残差 $e_{i} = y_{i} - {\hat{y}}_{i}$ の絶対値 $| e_{i} |$ の中央値を $s$ とする。ロバスト性重み（robustness weights）を

δ_{k} = B (e_{k} / 6 s)

と定義する。 $B (x)$ もtricube functionと似た形状であり、残差の絶対値の中央値の6倍（ $6 s$ ）以上の絶対値の残差 $| e_{k} / 6 s | \geq 1$ を持つ外れ値は重み $δ_{k}$ がゼロになり、推定に含まれなくなるので、推定からハズレ値の影響を除外できる。

../_images/c94a781fbbd34d0da92206e2680f29fc959b62ff02535a889e6d25d2867dc5cc.png

4. $δ$ で重み付け回帰を行う#

また $d$ 次多項式回帰を行い、新たな推定値 ${\hat{y}}_{i}$ を得る。このとき、重みは $δ_{k} w_{k} (x_{i})$ を使う。

5. 繰り返す#

3.と4.のステップを $t$ 回繰り返す。

実装#

# サンプルデータ
import numpy as np
n = 100
np.random.seed(0)
x = np.linspace(0, 7, n)
y = np.sin(x) + np.random.normal(0, 0.2, n)

import matplotlib.pyplot as plt
fig, ax = plt.subplots()
ax.scatter(x, y)
ax.set(xlabel="x", ylabel="y")
fig.show()

../_images/480b8e93e5f8bd5a23e8e31ee3f0bf45cac0c246950c154933db067bd4cff6f8.png

frac = 0.66 # 使用するサンプルの割合
r = int(frac * n)  # 使用する近傍のサンプル数
d = 3  # 多項式回帰の次数
t = 3  # iteration

def tricube(x: np.array) -> np.array:
    w = (1 - np.abs(x)**3)**3
    w[np.abs(x) >= 1] = 0
    return w

def bisquare(x: np.array) -> np.array:
    w = (1 - np.abs(x)**2)**2
    w[np.abs(x) >= 1] = 0
    return w

# d次多項式を作るための特徴量生成
X = np.vstack([x**j for j in range(d)]).T

n = X.shape[0]
delta = np.ones_like(x)
y_pred = np.zeros_like(x)
for _ in range(t):
    for i in range(n):
        # 重みの計算
        dist = x - x[i]
        idx = np.argsort(np.abs(dist))[:r]
        h_i = np.abs(dist[idx]).max() # r番目に近いdiff
        w = tricube(dist / h_i)
        W = np.diag(delta * w)
    
        # WLS
        beta = np.linalg.inv(X.T @ W @ X) @ X.T @ W @ y
        y_pred[i] = X[i,:] @ beta
    
    e = y - y_pred
    s = np.median(np.abs(e))
    delta = bisquare(e / (6 * s))

import matplotlib.pyplot as plt
fig, ax = plt.subplots()
ax.scatter(x, y)
ax.plot(x, y_pred, c="k")
ax.set(xlabel="x", ylabel="y")
fig.show()

../_images/697b76781ba409429044ed1a29b00698a41002881c538944c69fa5defdd06bb2.png

最近のLOWESSアルゴリズム#

Wikipediaには、重み関数がtricubeではなくGaussianを使うものが紹介されている

Gaussian weight functionとは、2つのデータ点の特徴量ベクトル $x, x^{'} \in R^{m}$ （ $m$ は特徴量の次元数）について、

w (x, x^{'}, α) = \exp (- \frac{‖ x - x^{'} ‖^{2}}{2 α^{2}})

といったもの。

参考#

Local regression - Wikipedia
Cleveland, W. S. (1979). Robust locally weighted regression and smoothing scatterplots. Journal of the American statistical association, 74(368), 829-836.

LOWESS

Contents