Emergent Abilities（創発的能力）

Emergent Abilities（創発的能力）#

モデルの規模を大きくしていったとき、非連続的な能力の向上（emergent abilities; 創発や創発的能力などと訳される）が起こる。これは非連続的なので小規模なモデルのふるまいからの外挿で予測することは難しい

Zhao, et al. 2023はemergent abilityを

としている

fine-tuningするのではなく、自然言語で提供されたタスク（zero-shot learning）や例示（few-shot learning）に対してモデルが文章生成をすることで問題を解く

GPT-3の論文で正式に導入された考え方で、GPT-2まではこれはできなかった

Emergent Abilityの論文でも、計算問題（Mod. arithmetic）でGPT-3の10^22 FLOPsのモデル（13BパラメータのGPT-3）ではfew-shot では解くことができていないが、10^23（175B）のGPT-3では解くことができている

単位の FLOPs (FLoating-point OPerationS) は単に計算回数のこと。処理能力ではないので注意

下の図はfew-shot promptingでの性能

「transformer-based in-context learnersは標準的な学習アルゴリズムを暗黙的に実行している」という仮説
線形回帰を使って検証
発見
1. Transformerは勾配降下法に基づく線形回帰やリッジ回帰の解析解といった学習アルゴリズムを実装できる
2. 学習済みin-context learnersは勾配降下法、リッジ回帰、最小二乗法と似ている
3. in-context learnersはalgorithmic featuresを予測器と共有している（？）
→ in-context learningは標準的な学習アルゴリズムの枠組みで再発見できる可能性がある

MLP抜きのlinear（softmaxじゃないということ？）self-attentionの1層のTransformerは、勾配降下法の1ステップになる（von Oswald et al., 2022）
事前学習の誤差関数の大域解はpre-conditioned gradient descentの1ステップになる

instruction tuning: 指示（instruction）で記述されたデータセットでファイニューニングすることで、未知のタスクに対するzero-shotの性能が上がる

CoTが効果的なのもスケールが大きいモデルに限る