Support Vector Machine

Support Vector Machine#

マージン#

データがクラス ${C_{1}, C_{2}}$ のどちらに含まれるかを判断する2クラス識別問題について考える。教師ラベルは $y \in {+ 1, - 1}$ であり、それぞれデータが $C_{1}, C_{2}$ のどちらに含まれるかを示すとする。係数ベクトルを $w = (w_{1}, . . ., w_{d})^{T}$ 、バイアス項を $b$ 、特徴量ベクトルを $x = (x_{1}, . . ., x_{d})^{T}$ とおくと、線形識別関数は

f (x) = w^{T} x + b

と表すことができる。

識別境界（識別超平面）は $f (x) = 0$ となる位置に描かれるとし、クラス1を $f (x) >= 0$ 、クラス2を $f (x) < 0$ で表現するように学習させるとする。例えば次の図のように、ある識別関数が存在したとする。

../_images/f6bad3767aec588c5bdc29e959d9e484f8022fb6aa761953397faf1a8c16232e.png

訓練データ中に存在しなかったノイズがテストデータに含まれていた場合、ノイズの分だけ識別を誤りやすくなる。しかし、訓練データの点が識別超平面からある値 $h > 0$ よりも離れるように学習させれば、 $h$ より小さなノイズに対しては正しく識別できるようになる。

例えば、以下の図の(a)と(b)はいずれもサンプルをうまく分離できているものの、(a)よりも(b)のほうがデータ点と識別超平面の距離があり、ノイズに対してより頑健で望ましい分類器であると考えられる。

../_images/bf7a0a9b7e410acf9ad69aa4dd16cdba554cde7c76e2d9fd2d792250c2d35f3b.png

となれば、 「識別超平面が訓練データからもっとも離れるように（両クラスの中間になるように）学習させればよいのではないか」 という考えが湧く。

これがサポートベクターマシン（Support Vector Machine: SVM）の考え方である。

識別境界 $f (x) = 0$ と最も近い各クラスの訓練データの点を サポートベクトル （support vector）といい、サポートベクトルと識別境界との距離（識別境界と最も近いデータ点の距離）を マージン （margin）という。

ある識別関数に対してとれるマージンの大きさは、両クラスの学習データを識別関数の法線ベクトル上に射影した長さの最小値

ρ (w) = min_{x \in C_{1}} \frac{w^{T} x}{| | w | |} - max_{x \in C_{2}} \frac{w^{T} x}{| | w | |}

の半分である。 $ρ (w)$ はクラス間マージンという。次の図中の2つの破線の間の距離が $ρ (w)$ である

../_images/ca0c8a0b89dada709a9a1fbef4ce64720d9985235e3fc44ef2613cdcfac64ab4.png

ハードマージンSVM#

学習データの集合を $D_{L} = {(y_{i}, x_{i})} (i = 1, . . ., N)$ とする。係数ベクトルはバイアス項 $b$ を外に出す形で、 $w = (w_{1}, . . ., w_{d})^{T}$ と表記する。特徴量ベクトルは $x = (x_{1}, . . ., x_{d})^{T}$ である。 $y_{i} = {- 1, + 1}$ は教師データで、学習データ $x_{i} \in R^{d}$ がどちらのクラスに属するかを示す。

線形識別関数のマージンを $κ$ とすれば全ての学習データで

| w^{T} x_{i} + b | \geq κ

が成り立つ。

係数ベクトルとバイアス項をマージンで正規化（ $w^{T} x_{i} = - b$ を定数倍）したものをあらためて $w, b$ とおけば

\begin{array}{r} {\begin{cases} w^{T} x_{i} + b \geq + 1 & if y_{i} = + 1 \\ w^{T} x_{i} + b \leq - 1 & if y_{i} = - 1 \end{cases} \end{array}

となり、まとめて表記すると

y_{i} \times (w^{T} x_{i} + b) \geq 1

クラス間マージンは $ $ρ (w, b) = min_{x \in C_{y = + 1}} \frac{w^{T} x}{| | w | |} - max_{x \in C_{y = - 1}} \frac{w^{T} x}{| | w | |}$ $

第1項の分子は $w^{T} x_{i} + b \geq + 1$ の最小値が $w^{T} x_{i} + b = 1$ であることから $min w^{T} x_{i} = 1 - b$

第2項の分子は $w^{T} x_{i} + b \leq - 1$ の最大値が $w^{T} x_{i} + b = - 1$ であることから $max w^{T} x_{i} = - 1 - b$

であることを使えば

\begin{array}{r} \begin{aligned} ρ (w, b) & = min_{x \in C_{y = + 1}} \frac{w^{T} x}{| | w | |} - max_{x \in C_{y = - 1}} \frac{w^{T} x}{| | w | |} \\ = \frac{1 - b}{| | w | |} - \frac{- 1 - b}{| | w | |} \\ = \frac{1 + 1 - b + b}{| | w | |} \\ = \frac{2}{| | w | |} \end{aligned} \end{array}

となる。

識別関数の最大マージンは最大クラス間マージンの半分であるため、 $\frac{1}{| | w | |}$ となる。

最適識別超平面#

最適な識別超平面は、「すべての訓練データを正しく識別できる」という制約条件

y_{i} (w^{T} x_{i} + b) \geq 1 (i = 1, . . ., N)

の下でマージン $\frac{1}{‖ w ‖}$ を最大化した解として得られる。マージンの最大化は $‖ w ‖$ の最小化と等しいため、

w_{0} = min ‖ w ‖

として求めることができる。これは次の不等式制約条件つき最適化問題を解くことで得られる。

主問題

\begin{array}{r} \begin{aligned} minimize & L_{p} (w) = \frac{1}{2} w^{T} w \\ subject to & y_{i} (w^{T} x_{i} + b) \geq 1; \forall i \end{aligned} \end{array}

この問題はラグランジュの未定乗数法を用いて解かれ、次のラグランジュ関数として定式化される

{\tilde{L}}_{p} (w, b, α) = \frac{1}{2} w^{T} w - \sum_{i = 1}^{N} α_{i} (y_{i} (w^{T} x_{i} + b) - 1)

ここで $α = (α_{1}, . . ., α_{N})^{T}$ 、 $α_{i} \geq 0$ であり、 $α_{i}$ はラグランジュ未定乗数と呼ばれる。

この最適化問題の解 $w_{*}$ と $b_{*}$ は以下のKKT（Karush-Kuhn-Tucker）条件を満たす解として知られている。

KKT条件

(1) $\frac{\partial {\tilde{L}}_{p} (w, b, α)}{\partial w} |_{w = w_{*}} = w_{*} - \sum_{i = 1}^{N} α_{i} y_{i} x_{i} = 0$

(2) $\frac{\partial {\tilde{L}}_{p} (w, b, α)}{\partial b} = \sum_{i = 1}^{N} α_{i} y_{i} = 0$

(3) $y_{i} (w^{T} x_{i} + b) - 1 \geq 0$

(4) $α_{i} \geq 0$

(5) $α_{i} (y_{i} (w^{T} x_{i} + b) - 1) = 0$

ラグランジュ関数の $w$ を $w_{*}$ に置き換えてKKT条件(1)と(2)を代入して整理すると

\begin{array}{r} \begin{aligned} L_{d} (α) & = \frac{1}{2} {w_{*}}^{T} w_{*} - \sum_{i = 1}^{N} α_{i} y_{i} w_{*}^{T} x_{i} - b \sum_{i = 1}^{N} α_{i} y_{i} + \sum_{i = 1}^{N} α_{i} \\ = \sum_{i = 1}^{N} α_{i} - \frac{1}{2} w_{*}^{T} w_{*} (∵ \sum_{i = 1}^{N} α_{i} y_{i} = 0) \\ = \sum_{i = 1}^{N} α_{i} - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j} \end{aligned} \end{array}

となり、ラグランジュ未定乗数のみの関数にすることができる

KKT条件(1)より最適解は $w_{*} = \sum_{i = 1}^{N} α_{i} y_{i} x_{i}$ のようになることがわかっているので、最適な係数 $α_{i}$ を求める問題に置き換えることができる。

双対問題

\begin{array}{r} \begin{aligned} maximize & L_{d} (α) = α^{T} 1 - \frac{1}{2} α^{T} H α \\ subject to & α^{T} y = 0 \end{aligned} \end{array}

ここで

\begin{array}{r} \begin{aligned} 1 & = (1, . . ., 1)^{T} \\ H & = (H_{i j} = y_{i} y_{j} x_{i}^{T} x_{j}) \\ y & = (y_{1}, . . ., y_{N})^{T} \end{aligned} \end{array}

である。

双対問題のラグランジュ関数は、ラグランジュ未定乗数を $β$ とすれば次の関数になる。

{\tilde{L}}_{d} (α, β) = α^{T} 1 - \frac{1}{2} α^{T} H α - β α^{T} y

KKT条件(5)より $α_{i} (y_{i} (w^{T} x_{i} + b) - 1) = 0$ がすべての $i$ で成り立てば良いため、

\begin{array}{r} {\begin{cases} α_{i} > 0 & if y_{i} (w^{T} x_{i} + b) - 1 = 0 \\ α_{i} = 0 & if y_{i} (w^{T} x_{i} + b) - 1 \neq 0 \end{cases} \end{array}

となる。 $α_{i} > 0$ となる $x_{i}$ をサポートベクトルという。

最適なバイアス $b_{*}$ はサポートベクトルの一つ $x_{s}$ を用いて

y_{s} (w_{*}^{T} x_{s} + b_{*}) - 1 = 0

を解いて求めるか、それらの平均を用いる。

実装例（cvxpy）#

主問題をそのままソルバーに通すパターン

\begin{array}{r} \begin{aligned} min_{w} & \frac{1}{2} w^{T} w = \frac{1}{2} ‖ w ‖_{2}^{2} \\ s.t. & y_{i} (w^{T} x_{i} + b) \geq 1; \forall i \end{aligned} \end{array}

import cvxpy as cp
n = X.shape[0]
d = X.shape[1]

b = cp.Variable()
w = cp.Variable(d)
prob = cp.Problem(cp.Minimize( (1/2) * cp.norm(w, 2)**2 ),
                  [y[i] * (w.T @ X[i, :] + b) >= 1 for i in range(n)])
prob.solve()
print("The optimal value is", prob.value)
print("w is", w.value)
print("b is", b.value)

The optimal value is 0.9049773766503894
w is [0.90497738 0.99547511]
b is -2.2003337529347888e-17

../_images/171061485513c62b57c19f4df8dbed3ab69225ee4520d3e95345b5d19205232e.png

双対問題をソルバーに通すパターン#

双対問題

\begin{array}{r} \begin{aligned} maximize & L_{d} (α) = α^{T} 1 - \frac{1}{2} α^{T} H α \\ subject to & α^{T} y = 0 \end{aligned} \end{array}

をcvxpyの二次計画問題のソルバーを使って解いてみる

# データ数が多くなるとソルバーが上手く動かないので一旦暫定的対処としてデータ数を絞る
y = y[3:6]
X = X[3:6]

# Hを作成
n = X.shape[0]
H = np.zeros(shape=(n, n))
for i in range(n):
    for j in range(n):
        H[i, j] = y[i] * y[i] * X[i] @ X[j]

ones = np.ones(shape=(n, ))

import cvxpy as cp

alpha = cp.Variable(n)  # 長さnのベクトル
prob = cp.Problem(cp.Maximize( alpha.T @ ones - (1/2) * cp.quad_form(alpha, H) ),
                  [alpha.T @ y == 0])
prob.solve()
print("The optimal value is", prob.value)
print("alpha is", alpha.value)

a = alpha.value
w = sum([a[i] * y[i] * X[i] for i in range(n)])
print(f"w={w}")

The optimal value is 33.99999999999996
alpha is [34. 10. 24.]
w=[39.6 49. ]

../_images/586c13cd50d14b9d7ddf618184ff1d15a34290a6005b06b15f74be44eb02eaf2.png

実装例（scikit-learn）#

from sklearn import svm
clf = svm.SVC(random_state=0, kernel='linear', shrinking=False)
clf.fit(X, y)

print(f"b={clf.intercept_}, w={clf.coef_}")

b=[-0.15974441], w=[[0.76677316 0.83067093]]

../_images/aa7bdd67ae87ecc0432f5dfef66748a8a4ed6e8238452129f276ff986ffaf980.png

ソフトマージンSVM#

C-SVM#

スラック変数と呼ばれる変数 $ξ_{i}$ を追加する。

\begin{array}{r} {\begin{cases} ξ_{i} = 0 & (マ ー ジ ン 内 で 正 し く 識 別 で き る 場 合) \\ 0 < ξ_{i} \leq 1 & (マ ー ジ ン 境 界 を 超 え る が 正 し く 識 別 で き る 場 合) \\ ξ_{i} > 1 & (識 別 境 界 を 超 え て 誤 識 別 さ れ る 場 合) \end{cases} \end{array}

以下のように書くこともできる

ξ_{i} = max [0, 1 - y_{i} (w^{T} x_{i} + b)] = f_{+} (1 - y_{i} (w^{T} x_{i} + b))

ここで $f_{+} (x)$ はヒンジ（hinge）関数と呼ばれるもので

\begin{array}{r} f_{+} (x) := {\begin{cases} x & (x > 0 の 場 合) \\ 0 & (そ れ 以 外) \end{cases} \end{array}

である

ソフトマージン識別器の主問題は以下のように定式化される。

主問題

\begin{array}{r} \begin{aligned} minimize & L_{p} (w, ξ) = \frac{1}{2} w^{T} w + C \sum_{i = 1}^{N} ξ_{i} \\ subject to & y_{i} (w^{T} x_{i} + b) - 1 + ξ_{i} \geq 0 \\ ξ_{i} \geq 0 \end{aligned} \end{array}

すべての訓練データのスラック変数の和 $\sum ξ_{i} (ξ_{i} \geq 0)$ は誤識別数の上限を与える。パラメータ $C$ は誤識別数に対するペナルティの強さであり、 $C$ が大きいほど $w$ のノルム最小化よりも誤識別数を小さくする方を優先することになる。

このSVMは $C$ -SVMと呼ばれる。

ν-SVM#

上限サポートベクトル（マージン誤り $ξ_{i} > 0$ のベクトルの数）の割合の上限を規定するハイパーパラメータ $ν$ が指定できるようになった

カーネルトリック#

カーネルモデル#

線形モデルをカーネルモデルに拡張することを考える。

線形モデル

f^{l i n e a r} (x_{i}) = w^{T} x_{i} + b

$x_{i} = (x_{i 1}, \dots, x_{i D})$
$w = (x_{1}, \dots, x_{D})^{T}$

カーネルモデル

f^{k e r n e l} (x_{i}) = \sum_{j = 1}^{N} w_{j} ϕ (x_{i})^{T} ϕ (x_{j}) + b

$x_{i} = (x_{i 1}, \dots, x_{i D})$
$w = (x_{1}, \dots, x_{N})^{T}$

ここで $ϕ (\cdot)$ は任意の関数で、 $ϕ (\cdot)$ によって入力ベクトル $x$ を高次元空間に写像し（2次元では線形分離不可能なものを3次元に写して線形分離不可にするイメージ）、高次元空間上の類似度を内積 $ϕ (x_{i})^{T} ϕ (x)$ で表す。

カーネルモデルは $N$ の和が入っているように、訓練データ数 $N$ が増えるとモデルの表現力は高まるが計算量が増える。

カーネルトリック#

$ϕ (x)$ 上での内積計算を緩和するために 正定値関数 （positive definite function）を用いる。

正定値関数

関数 $k (x_{i}, x_{j})$ は次の条件を満たすとき正定値関数と呼ばれる。

(1) 対称性： $k (x_{i}, x_{j}) = k (x_{j}, x_{i})$

(2) 正定値性：デー夕点 $x_{1}, x_{2}, \dots, x_{N}$ に対する以下の グラム行列（Gram matrix） $K$ が半正定値である。

\begin{array}{r} K = (\begin{array}{c} k (x_{1}, x_{1}) & k (x_{1}, x_{2}) & \dots & k (x_{1}, x_{N}) \\ k (x_{2}, x_{1}) & k (x_{2}, x_{2}) & \dots & k (x_{2}, x_{N}) \\ ⋮ & ⋮ & ⋱ & ⋮ \\ k (x_{N}, x_{1}) & k (x_{N}, x_{2}) & \dots & k (x_{N}, x_{N}) \end{array}) \end{array}

すなわち、任意の $N$ 次元のベクトル $z$ に対し $z^{⊤} K z \geq 0$ が成り立つ。

正定値関数 $k (x_{i}, x_{j})$ は 再生核ヒルベルト空間 $H_{k}$ への写像 $ϕ (x_{i}), ϕ (x_{j}) \in H_{k}$ の内積に対応する。

k (x_{i}, x_{j}) = ϕ (x_{i})^{T} ϕ (x_{j})

これを用いて高次元空間上での内積をより単純な2変数関数の計算 $k (\cdot, \cdot)$ に置き換える事ができる。この正定値関数 $k (\cdot, \cdot)$ のことを カーネル関数 （kernel function）、グラム行列 $K$ を カーネル行列 （kernel matrix）と呼ぶ。

カーネル関数とカーネル行列を用いると、カーネルモデルは以下のように表現できる

カーネル行列を用いたカーネルモデル

f^{k e r n e l} (x_{i}) = \sum_{j = 1}^{N} w_{j} k (x_{i}, x_{j}) + b = K_{i :} w + b

ここで $K_{i :}$ はカーネル行列の $i$ 行目の行ベクトルを表す。

カーネル関数の例#

線形カーネル（linear kernel）

k (x_{i}, x_{j}) = x_{i} x_{j}^{T}

入力をそのまま出力する写像関数 $ϕ (x) = x^{T}$ に対応する

ガウスカーネル（Gaussian kernel）

k (x_{i}, x_{j}) = \exp (- \frac{‖ x_{i} - x_{j} ‖^{2}}{2 σ^{2}})

カーネルモデルを用いたソフトマージン最大化問題（主問題）

\begin{array}{r} \begin{aligned} min_{w, b, ξ} & L_{p} (w, ξ) = \frac{1}{2} w^{T} w + C \sum_{i = 1}^{N} ξ_{i} \\ s. t. & y_{i} (K_{i :} w + b) - 1 + ξ_{i} \geq 0 \\ ξ_{i} \geq 0 \forall i \end{aligned} \end{array}

カーネルモデルを用いたソフトマージン最大化のラグランジュ双対問題

\begin{array}{r} \begin{aligned} max_{λ} L (λ, γ^{*}, w^{*}, b^{*}, ξ^{*}) = & - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} λ_{i} y_{i} k (x_{i}, x_{j}) t_{j} λ_{j} + \sum_{i = 1}^{N} λ_{i} \\ s.t. & - λ_{i} \leq 0 \\ λ_{i} \leq C \\ \sum_{i = 1}^{N} λ_{i} y_{i} = 0 \forall_{i} \end{aligned} \end{array}

# TODO: コードかく

参考#

八谷大岳. (2020). ゼロからつくるPython機械学習プログラミング入門.

# TODO

from sklearn import datasets
X, y = datasets.load_iris(return_X_y=True, as_frame=False)
X = X[:, 0:2]

fig, ax = plt.subplots()
for c, label in enumerate(['setosa', 'versicolor', 'virginica']):
    is_c = y == c
    ax.scatter(X[is_c, 0], X[is_c, 1], label=label)
ax.legend()

<matplotlib.legend.Legend at 0x7f08e7443760>

../_images/6ddf228690434730b2cae9cd784aa114668de7edb162dd48f44884d98388e23a.png

# setosaとvirginicaを1つにまとめて2クラスにする
y[y == 2] = 0


fig, ax = plt.subplots()
for c, label in enumerate(['setosa', 'versicolor', 'virginica']):
    is_c = y == c
    ax.scatter(X[is_c, 0], X[is_c, 1], label=label)
ax.legend()

<matplotlib.legend.Legend at 0x7f08e7148490>

../_images/9e475804d11fddbcd33156b0badced825e4ec29eacc766025ea581dd6290a710.png

GaussianKernel (RBF kernel)#

一般的には $ $k (x, x^{'}) = \exp (\frac{- ‖ x - x^{'} ‖^{2}}{2 σ^{2}})$ $

David Duvenaud (2014). “The Kernel Cookbook: Advice on Covariance functions”.

x1 = np.array([[1], [2]])
x2 = np.array([[3], [4]])
x1

array([[1],
       [2]])

def rbf_kernel(x1, x2, sigma=1.0) -> float:
    return - np.linalg.norm(x1 - x2)**2 / (2 * sigma**2)
rbf_kernel(x1, x2)

-4.000000000000001

class GaussianKernel:

    def fit(self, X):
        self.alpha = 0.001
        self.mu = np.mean(X, axis=0)
        self.sigma = np.cov(X, rowvar=False, bias=False)

    def transform(self, X) -> np.array:
        return np.array([self._transform(x) for x in X])

    def _transform(self, x) -> float:
        return np.exp( - self.alpha * (x - self.mu) @ np.linalg.inv(self.sigma) @ (x - self.mu) )
    
    def __repr__(self) -> str:
        return f"<{self.__class__.__name__} alpha={self.alpha}, mu={self.mu}, sigma={self.sigma}>"

Memo 4#

RBFカーネルが無限次元になるのは指数関数の冪級数による定義が無限和であるため

\exp (x) = \sum_{n = 0}^{\infty} \frac{1}{n!} x^{n}

ref: https://ja.wikipedia.org/wiki/指数関数#厳密な定義a

TODO: もっと図とか入れたい

9. サポートベクトルマシン — 機械学習帳

のように

Support vector machine classifier with (\ell_1)-regularization — CVXPY 1.3 documentation

はじパタ全力解説: 第8章サポートベクトルマシン - Qiita

Support Vector Machine

Contents

Support Vector Machine#

マージン#

ハードマージンSVM#

最適識別超平面#

実装例（cvxpy）#

双対問題をソルバーに通すパターン#

実装例（scikit-learn）#

ソフトマージンSVM#

C-SVM#

ν-SVM#

カーネルトリック#

カーネルモデル#

カーネルトリック#

カーネル関数の例#

参考#

GaussianKernel (RBF kernel)#

Memo 4#