Transformerの理論的解析#

in-context learningは勾配降下法?#

[2212.07677] Transformers learn in-context by gradient descent

MLP抜きのlinear self-attention(softmaxじゃないattention)の1層のTransformerは、勾配降下法の1ステップになる説

解説記事:Paper: Transformers learn in-context by gradient descent — LessWrong

linear self-attentionは線形回帰の勾配降下法をエミュレートできる

通常のSelf Attention

\[ e_j \leftarrow e_j + \sum_h P_h V_h \text{softmax}(K^T_h q_{h,j}) \]

Linear Self Attention

\[ e_j \leftarrow e_j + \sum_h P_h V_h K^T_h q_{h,j} \]

[2307.03576] One Step of Gradient Descent is Provably the Optimal In-Context Learner with One Layer of Linear Self-Attention

事前学習の誤差関数の大域解はpre-conditioned gradient descentの1ステップになる

https://twitter.com/hillbig/status/1678525778492018688

Transformer in Transformer#

推論時に内部でfine-tuneしたり動きをシミュレーションする

[2307.01189] Trainable Transformer in Transformer

https://twitter.com/hillbig/status/1679253896362086401

Structural Grokking#

Transformerは、検証誤差が下がりきった後も学習し続けることで階層構造も汎化する形で捉えられるStructural Grokkingが起きていると報告 https://twitter.com/hillbig/status/1678528273012215814

[2305.18741] Grokking of Hierarchical Structure in Vanilla Transformers