線形判別モデル

線形判別モデル#

2クラス $(C_{1}, C_{2})$ を識別する線形モデルを考える。

特徴量ベクトルを $x = (x_{1}, \dots, x_{d})^{⊤}$ 、係数ベクトルを $w = (w_{1}, \dots, w_{d})^{⊤}$ 、バイアス項を $w_{0}$ とすれば、

f (x) = w_{0} + w^{⊤} x

で表される。

識別境界を $f (x) = 0$ として、 $f (x) = 0$ のときはリジェクトせずに $C_{1}$ とする場合、予測値 $\hat{C}$ を出力する識別規則は

\begin{array}{r} {\begin{cases} C_{1} & (f (x) \geq 0) \\ C_{2} & (f (x) < 0) \end{cases} \end{array}

となる。

クラス数が $K (> 2)$ 個ある場合にはどうすればよいだろうか。

いくつか方法はある（はじパタ 6.1.2などを参照）が、最大識別関数法が現状もっとも良さそう。

これは $K$ 個の線形識別関数 $f_{j} (x) (j = 1, 2, \dots, K)$ を用意して、最も出力値が大きいクラスを採用するというもの。

\hat{C} = \arg max_{j} f_{j} (x)

係数ベクトルにバイアスを含めて $w = (w_{0}, w_{1}, \dots, w_{d})^{⊤}$ とし、特徴量ベクトルを $x = (1, x_{1}, \dots, x_{d})^{⊤}$ と表記することにする。

それにより、線形識別関数を

f (x) = w^{⊤} x

と表記する。

教師ラベルは ${+ 1, - 1}$ で表現されるものとする。

\begin{array}{r} t_{i} = {\begin{cases} + 1 & (x_{i} \in C_{1}) \\ - 1 & (x_{i} \in C_{2}) \end{cases} \end{array}

ここで $i$ はサンプルの添字で $i = 1, \dots, N$ である。

特徴量を行列 $X = (x_{1}, \dots, x_{N})^{⊤}$ 、教師ラベルのベクトルを $t = (t_{1}, \dots, t_{N})^{⊤}$ と表記する。

二乗誤差 $E (w)$ を使って評価すると、次のようになる。

\begin{array}{r} \begin{aligned} E (w) & = \sum_{i = 1}^{N} (t_{i} - f (x_{i}))^{2} \\ = (t - X w)^{⊤} (t - X w) \\ = t ⊤ t - 2 t^{⊤} X w + w^{⊤} X^{⊤} X w \end{aligned} \end{array}

二乗誤差を最小にするパラメータ $w$ はパラメータで微分して0になるパラメータなので、

\frac{\partial E (w)}{\partial w} = - 2 X^{⊤} t + 2 X^{⊤} X w = 0

を解くことにより

\hat{w} = (X^{⊤} X)^{- 1} X^{⊤} t

である。

以下のようなデータがあったとする

# 最小二乗法によるパラメータの推定
w = np.linalg.inv(X.T @ X) @ X.T @ y
w

array([0.78271718, 0.82605555])

このパラメータによる識別超平面を描くと次の図のようになる