深層学習の理論

深層学習の理論#

深層学習はなぜうまくいくのか？についての理論的な考察のまとめ

80年代に普遍近似性 (Universal Approximation Property, or Universality)という性質があることが示された。

（この時点では関数近似の効率性までは言及していない）

無限のデータと素子があれば、2層のニューラルネットワークは任意の関数を任意の精度で近似できる

[Hecht-Nielsen,1987][Cybenko,1989]

浅いニューラルネット (shallow newral network: SNN)

緩増加超関数（”活性化関数”） $σ : R \to C$ を固定する（例えば $\exp (- t^{2} / 2), \tanh (t), max {0, t}$ (=”ReLU”)）

中間層が1層の2層ニューラルネットワークは以下のように表すことができる。

SNN (x; θ, β) := \sum_{i = 1}^{p} c_{i} σ (w_{i}^{⊤} x - b_{i}) - β, x \in R^{m}

ここで $θ = {(w_{i}, b_{i}, c_{i})}_{i = 1}^{p} \subset R^{m} \times R \times R, β \in R$ はパラメータ

SNNの形にするとわかりやすいが、これは関数の和で関数近似しているのでFourier変換と似た構造になっている。

連続関数の一様近似定理（Cybenko 1989）

シグモイド関数型の活性化関数を用いる2層のニューラルネットワークを $f (x)$ とする。

任意の連続関数 $f^{o} : [0, 1]^{d} \to R$ と $ϵ > 0$ に対して、ある横幅 $p$ とパラメータ ${(w_{i}, b_{i}, c_{i})}_{i = 1}^{p}, β$ が存在し、一様に $f^{o}$ を二層ニューラルネットワークで近似できる

sup_{x \in [0, 1]^{d}} | f^{o} (x) - \sum_{i = 1}^{p} c_{i} σ (w_{i}^{⊤} x - b_{i}) - β | \leq ϵ

ReLUは2つの素子を適切に用意して足し引きすれば連続なシグモイド型関数を作成できるので、同様に万能近似能力があることを示せるらしい。

カーネル法も万能近似能力をもつ

それらとDeepが違うのは、不連続な（ジャンプのある）関数も近似できること（今泉 2021）

Deepは滑らかさが非一様（一部だけ極端に複雑）でもうまく適応的に学習できる

コルモゴロフ・アーノルド表現定理（Kolmogorov-Arnold representation theorem）