ChatGPT#

ChatGPTはOpenAIが提供しているチャットボットAIのサービス。

バックエンドはGPT-3.5やGPT-4といったLLMをベースにしたものが使用される

InstructGPT#

チャットボットとして望ましい返答の文章を教えるため、ChatGPTは人間が対話して強化学習を用いてより望ましい文章を返すように学習されている。これをInstructGPTという。

例えば「以下のコードにおけるリストCの意図は?」という質問をしたとき、GPT-3では「C[i]の値を入れるため」といった望ましくない答えをしてしまうことがあるので、これを修正する。

(出所:[2203.02155] Training language models to follow instructions with human feedback

論文解説 InstructGPT : Training language models to follow instructions with human feedback - Speaker Deck

また、これまでのチャットボットAIはユーザーの悪意ある質問に誘導されて過激なことを言ってしまったりして問題になることが多かった。 そうした運用上のリスクを回避する目的もある。

RLHF#

Ziegler et al. (2019). Fine-tuning language models from human preferences. arXiv preprint arXiv:1909.08593.

RLHFに繋がるまでの歴史:論文紹介:Reinforcement Learning from Human Feedback | FORXAI | コニカミノルタ

ChatGPT#

規模#

2ヶ月で1億ユーザーに到達する、という過去に類を見ない速度で成長

App Economy Insights on Twitter: “ChatGPT reached 100M users in 2 months. “In 20 years following the internet space, we cannot recall a faster ramp in a consumer internet app.” ~ UBS https://t.co/60L28rtQIW” / Twitter

計算資源#

スーパーコンピュータのランキングのtop5に入るような、1万のGPUの環境で学習されたという話もある

GPT-4の1回の学習で1億ドルを費やしたとも。

参考文献#

InstructGTP#

ChatGPT#