ChatGPT#
ChatGPTはOpenAIが提供しているチャットボットAIのサービス。
バックエンドはGPT-3.5やGPT-4といったLLMをベースにしたものが使用される
InstructGPT#
チャットボットとして望ましい返答の文章を教えるため、ChatGPTは人間が対話して強化学習を用いてより望ましい文章を返すように学習されている。これをInstructGPTという。
例えば「以下のコードにおけるリストC
の意図は?」という質問をしたとき、GPT-3では「C[i]
の値を入れるため」といった望ましくない答えをしてしまうことがあるので、これを修正する。
(出所:[2203.02155] Training language models to follow instructions with human feedback)
また、これまでのチャットボットAIはユーザーの悪意ある質問に誘導されて過激なことを言ってしまったりして問題になることが多かった。 そうした運用上のリスクを回避する目的もある。
RLHF#
RLHFに繋がるまでの歴史:論文紹介:Reinforcement Learning from Human Feedback | FORXAI | コニカミノルタ
ChatGPT#
規模#
2ヶ月で1億ユーザーに到達する、という過去に類を見ない速度で成長
計算資源#
スーパーコンピュータのランキングのtop5に入るような、1万のGPUの環境で学習されたという話もある
GPT-4の1回の学習で1億ドルを費やしたとも。