GPT series

GPT series#

モデル	公開年	パラメータ数	データサイズ	備考
GPT-1	2018	1.2億	5GB	自己教師あり事前学習＋fine-tuning
GPT-2	2019	15億	40GB	文章生成以外は性能が低め
GPT-3	2020	1750億	570GB	promptによる追加学習（in-context learning）の提案
GPT-4	2023	非公開	非公開	マルチモーダル（画像も処理できる）

Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training.
モデルはデコーダー型Transformer（[1801.10198] Generating Wikipedia by Summarizing Long Sequences）
次の単語を予測する問題として事前学習
- BERTのようにタスクに合わせて教師あり学習でFine-tuningする
このあとにBERTが出て注目されにくかった模様

前処理

h_{0} = U W_{e} + W_{p}

Text & Position Embedding

Masked Multi Self Attention

residual conneciton

1つ前の層の結果を現在の層の出力結果に足し合わせる処理

$l$ 番目のレイヤーの入力を $p_{t}^{(l)}$ 、出力を $o_{t}^{(l)}$ とすると、残差結合では

p_{t}^{(l)} = o_{t}^{(l)} + p_{t}^{(l - 1)}

Layer Norm

Layer Normalizationは、学習中に過剰に値が大きくならないようにベクトルの各要素を正規化する（[1607.06450] Layer Normalization）

スケールを調整するパラメータ $a = (a_{1}, \dots, a_{d})^{⊤}$ と平行移動を調整する $b = (b_{1}, \dots, b_{d})^{⊤}$ を用いて $x$ を $x^{'}$ に変換する。

x_{k}^{'} = a_{k} (\frac{x_{k} - μ_{x}}{σ_{x} + ϵ} + b_{k})

ここで

\begin{array}{r} μ_{x} = \frac{1}{d} \sum_{k = 1}^{d} x_{k} \\ σ_{x} = \sqrt{\frac{1}{d} \sum_{k = 1}^{d} (x_{k} - μ_{x})^{2}} \end{array}

Feed Forward

DNNだが

という違いが有る

$i$ 番目の隠れベクトルを $h_{i}$ とすると

\begin{array}{r} {\hat{h}}_{i} = W_{2} h_{i}^{'} + b_{2} \\ h_{i}^{'} = f (W_{1} h_{i} + b_{1}) \end{array}

GPTとほとんど同じモデル
データは新たに作ったWebTextデータセットで、数百万のテキスト
fine-tuneしないzero-shot learningが可能
- Whenconditioned on a document plus questions, the answers generated by the language model reach 55 F1 on the CoQA dataset
- achieves state of the art results on 7 out of 8 tested language modeling datasets in a zero-shot settingbut still underfits WebText.
  - ゼロショットの設定では7/8のデータセットでSOTAだが、まだ学習不足
- まだまだ性能は低いが可能性は見た、という感じ
文章生成以外はパフォーマンスが低い？

promptによってモデルの振る舞いを変える・新たなタスクに適応させるという考え方

例示の数に応じてzero-shotやfew-shotに分かれる

→ prompt engineeringの考え方はこれがベース