言語モデル

言語モデル#

文章が生成される確率を推定したい。もっともらしい（確率的にありえる）文章を生成したい。

P (昨 日 は 雨 が 降 り ま し た) > P (昨 日 は 飴 が 降 り ま し た)

文章をトークンに置き換えて考えると、文章の確率ではなくトークンの同時確率として扱うことができる

P (昨 日, は, 雨, が, 降 り, ま し た)

記号にすると、ある文章 $S$ をトークン化したのを $(w_{1}, w_{2}, \dots, w_{n})$ とすると、

P (S) = P (w_{1}, w_{2}, \dots, w_{n})

を求めたいということになる。これは条件付き確率の積として表せる

\begin{array}{r} \begin{aligned} P (w_{1}, w_{2}, \dots, w_{n}) & = P (w_{1}) \times P (w_{2} | w_{1}) \times P (w_{3} | w_{1}, w_{2}) \times \dots \\ = \prod_{i = 1}^{n} p (w_{i} | c_{i}) \end{aligned} \end{array}

ここで $c_{i}$ は $w_{i}$ より前のトークン列 $c_{i} = (w_{1}, w_{2}, \dots, w_{n})$ で、文脈（context）と呼ばれる

この言語モデルの考え方がNLPではベースとなっている。

この派生で、DNNを使うword2vecがあったり（word2vecはcontextが $w_{i}$ の前後n個という感じでやや違うが）、

「contextは時系列的な関係がある」ということで系列性を扱えるRNNやLSTMを使う流れが生まれたり、

「RNNやLSTMは勾配消失の問題がある」ということでTransformerを使ってBERTやGPTを使ったり

「もっと大規模な表現力の高いモデルに」となりLLMに派生していった