言語モデル#
文章が生成される確率を推定したい。 もっともらしい(確率的にありえる)文章を生成したい。
文章をトークンに置き換えて考えると、文章の確率ではなくトークンの同時確率として扱うことができる
記号にすると、ある文章
を求めたいということになる。これは条件付き確率の積として表せる
ここで
言語モデルの位置づけと活用#
この言語モデルの考え方がNLPではベースとなっている。
この派生で、DNNを使うword2vecがあったり(word2vecはcontextが
「contextは時系列的な関係がある」ということで系列性を扱えるRNNやLSTMを使う流れが生まれたり、
「RNNやLSTMは勾配消失の問題がある」ということでTransformerを使ってBERTやGPTを使ったり
「もっと大規模な表現力の高いモデルに」となりLLMに派生していった