Emergent Abilities(創発的能力)#

[2206.07682] Emergent Abilities of Large Language Models

モデルの規模を大きくしていったとき、非連続的な能力の向上(emergent abilities; 創発や創発的能力などと訳される)が起こる。これは非連続的なので小規模なモデルのふるまいからの外挿で予測することは難しい

Zhao, et al. 2023はemergent abilityを

  1. in-context learning

  2. instruction following

  3. step-by-step reasoning (Chain of Thought)

としている

In-Context Learning#

fine-tuningするのではなく、自然言語で提供されたタスク(zero-shot learning)や例示(few-shot learning)に対してモデルが文章生成をすることで問題を解く

GPT-3の論文で正式に導入された考え方で、GPT-2まではこれはできなかった

Emergent Abilityの論文でも、計算問題(Mod. arithmetic)でGPT-3の10^22 FLOPsのモデル(13BパラメータのGPT-3)ではfew-shot では解くことができていないが、10^23(175B)のGPT-3では解くことができている

単位の FLOPs (FLoating-point OPerationS) は単に計算回数のこと。処理能力ではないので注意

下の図はfew-shot promptingでの性能

in-context-learningの仕組み#

What learning algorithm is in-context learning? Investigations with linear models | OpenReview

  • 「transformer-based in-context learnersは標準的な学習アルゴリズムを暗黙的に実行している」という仮説

  • 線形回帰を使って検証

  • 発見

    1. Transformerは勾配降下法に基づく線形回帰やリッジ回帰の解析解といった学習アルゴリズムを実装できる

    2. 学習済みin-context learnersは勾配降下法、リッジ回帰、最小二乗法と似ている

    3. in-context learnersはalgorithmic featuresを予測器と共有している(?)

  • → in-context learningは標準的な学習アルゴリズムの枠組みで再発見できる可能性がある

[2307.03576] One Step of Gradient Descent is Provably the Optimal In-Context Learner with One Layer of Linear Self-Attention

  • MLP抜きのlinear(softmaxじゃないということ?)self-attentionの1層のTransformerは、勾配降下法の1ステップになる(von Oswald et al., 2022)

  • 事前学習の誤差関数の大域解はpre-conditioned gradient descentの1ステップになる

https://twitter.com/hillbig/status/1678525778492018688

instruction following#

instruction tuning: 指示(instruction)で記述されたデータセットでファイニューニングすることで、未知のタスクに対するzero-shotの性能が上がる

[2109.01652] Finetuned Language Models Are Zero-Shot Learners

Step by Step Reasoning#

CoTが効果的なのもスケールが大きいモデルに限る