Emergent Abilities(創発的能力)#
[2206.07682] Emergent Abilities of Large Language Models
モデルの規模を大きくしていったとき、非連続的な能力の向上(emergent abilities; 創発や創発的能力などと訳される)が起こる。これは非連続的なので小規模なモデルのふるまいからの外挿で予測することは難しい
Zhao, et al. 2023はemergent abilityを
in-context learning
instruction following
step-by-step reasoning (Chain of Thought)
としている
In-Context Learning#
fine-tuningするのではなく、自然言語で提供されたタスク(zero-shot learning)や例示(few-shot learning)に対してモデルが文章生成をすることで問題を解く
GPT-3の論文で正式に導入された考え方で、GPT-2まではこれはできなかった
Emergent Abilityの論文でも、計算問題(Mod. arithmetic)でGPT-3の10^22 FLOPsのモデル(13BパラメータのGPT-3)ではfew-shot では解くことができていないが、10^23(175B)のGPT-3では解くことができている
単位の FLOPs (FLoating-point OPerationS) は単に計算回数のこと。処理能力ではないので注意
下の図はfew-shot promptingでの性能
in-context-learningの仕組み#
What learning algorithm is in-context learning? Investigations with linear models | OpenReview
「transformer-based in-context learnersは標準的な学習アルゴリズムを暗黙的に実行している」という仮説
線形回帰を使って検証
発見
Transformerは勾配降下法に基づく線形回帰やリッジ回帰の解析解といった学習アルゴリズムを実装できる
学習済みin-context learnersは勾配降下法、リッジ回帰、最小二乗法と似ている
in-context learnersはalgorithmic featuresを予測器と共有している(?)
→ in-context learningは標準的な学習アルゴリズムの枠組みで再発見できる可能性がある
MLP抜きのlinear(softmaxじゃないということ?)self-attentionの1層のTransformerは、勾配降下法の1ステップになる(von Oswald et al., 2022)
事前学習の誤差関数の大域解はpre-conditioned gradient descentの1ステップになる
instruction following#
instruction tuning: 指示(instruction)で記述されたデータセットでファイニューニングすることで、未知のタスクに対するzero-shotの性能が上がる
[2109.01652] Finetuned Language Models Are Zero-Shot Learners
Step by Step Reasoning#
CoTが効果的なのもスケールが大きいモデルに限る