深層学習の歴史#
はじまり#
人工ニューロン
第1次ブーム#
1958年にパーセプトロンが提案される
多層パーセプトロンにすると非線形モデルにでき、線形分離不可能な問題にも対応できるが、多層のニューラルネットワークを訓練する技術が不十分で下火となった
第2次ブーム#
80年代には多層NNの学習方法である誤差逆伝播法(back propagation)が発明されてブームになった。
しかし、
隠れ層1層程度のネットワークならうまくいくが、それ以上に多層になると過学習してしまい汎化誤差が削減できない問題
勾配消失問題(出力層から離れた層ほど伝播に伴って勾配が急速に小さくなったり大きくなって発散する問題)
ネットワークの構造が最終的な性能とどう結びつくかの理論が不十分
といった問題があって90年代には下火となった
冬の時代#
deep belief networkという、ふるまいが確率的に記述される生成モデルが考案され、注目された。これは学習には事前学習を使うように工夫した。 事前学習は層ごとに制約ボルツマンマシン(RBM)という単層ネットワークにした上で、教師無しで学習する。 さらにRBMの代わりにautoencoderを使うことで多層ネットワークの学習ができることが確認された。
この流れからニューラルネットワークの研究が加速していった。その後はReLU、Dropout、Batch Normalization、残差接続、Adamなどの手法も出てきた
第3次ブーム#
2012年に大規模画像データベースであるImageNetを用いた画像分類のコンペILSVRCにおいて、AlexNetが2位に大差をつけて優勝し、ニューラルネットワークが注目されるようになった。
AlexNetは8層でCNNを用いている