深層学習の歴史#

はじまり#

1943年:McCulloch & Pitts が脳のニューロンの構造を参考にした数理モデルである 人工ニューロンモデル を提案

第1次ブーム#

1958年:Rosenblattにより パーセプトロン が提案される。

単層パーセプトロンは線形分離可能な問題を有限回の反復で解くことができるが、線形分離不可能な問題を解くことはできない。

多層パーセプトロンにすると非線形モデルにでき、線形分離不可能な問題にも対応できるが、多層のニューラルネットワークを訓練する技術が不十分で下火となった

第2次ブーム(1980年代)#

80年代には多層NNの学習方法である誤差逆伝播法(back propagation)が発明されてブームになった。

しかし、

  1. 隠れ層1層程度のネットワークならうまくいくが、それ以上に多層になると過学習してしまい汎化誤差が削減できない問題

  2. 勾配消失問題(出力層から離れた層ほど伝播に伴って勾配が急速に小さくなったり大きくなって発散する問題)

  3. ネットワークの構造が最終的な性能とどう結びつくかの理論が不十分

といった問題があって90年代には下火となった

冬の時代(1990~2000年代)#

2006年:Hinton により Deep Belief Network(DBN)という、ふるまいが確率的に記述される生成モデルが考案された。これは学習には事前学習を使うように工夫したもの。

事前学習は層ごとに制約ボルツマンマシン(RBM)という単層ネットワークにした上で、教師無しで学習する。 さらにRBMの代わりにautoencoderを使うことで多層ネットワークの学習ができることが確認された。

この流れからニューラルネットワークの研究が加速していった。その後はReLU、Dropout、Batch Normalization、残差接続、Adamなどの手法も出てきた

第3次ブーム(2010年代)#

2012年に大規模画像データベースであるImageNetを用いた画像分類のコンペILSVRCにおいて、AlexNetが2位に大差をつけて優勝し、ニューラルネットワークが注目されるようになった。

AlexNetは8層でCNNを用いている

Transformerと基盤モデルの時代(2017年〜)#

基盤モデルの活用#

大量のデータで事前学習したモデルを共有し、利用者は自分のデータでfine-tuningという追加の学習を行うスタイルが流行(BERTなど)

Prompt / Few-shot Learningの登場#

Transformerベースのモデル(GPT-2)を単純に巨大化(パラメータ数を増加させ、大量のデータで長時間学習)したモデル(GPT-3)が、fine-tuningをしなくてもプロンプトにいくつかのサンプルと指示を与えることで様々なタスクを解けるようになったことが報告される(Language Models are Few-Shot Learners
fine-tuningせずともpromptだけでいい時代へ

大規模言語モデル(LLM)のブーム#

ChatGPTの登場:AIチャットボットに指示を出すだけで色々なタスクが解けることになりブームに