DeepSeek#
DeepSeekという中国の企業が開発したLLM
計算量の削減の工夫が随所に込められており、2025年1月には高性能なLLMを安価に提供してOpenAIを脅かし、NVIDIAの株価を一日で17%暴落させた
DeepSeek-V2#
[2405.04434] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
すごい点:計算量が圧倒的に少なく、安く作れる
計算量削減の工夫:
Multi-head Latent Attention (MLA):Key, Valueの次元を大きく圧縮
DeepSeekMoE:Shared ExpertとRouted Expertがあり、上位k個を選んで実行(使う分だけactivate)
推論時は高速化のためにモデルを8bit floating pointに変換して推論した
DeepSeek-V3#
[2412.19437v1] DeepSeek-V3 Technical Report
サイズ:671B params
性能:GPT-4oやLlama3.1に匹敵
すごい点:計算量が圧倒的に少なく、安く作れる
計算量削減の工夫:
多くの計算を8bit floating pointで行う
Multi-head Latent Attention (MLA):Key, Valueの次元を大きく圧縮
DeepSeekMoE:Shared ExpertとRouted Expertがあり、上位k個を選んで実行(→671Bあっても各トークンで使うのは37B)
データ:14.8兆トークン
DeepSeek-R1-Zero#
DeepSeek-V3-Baseをもとに強化学習で対話用にしたもの。GPT-3に対するInstructGPTのようなものと思われる。
すごい点:計算量が少ない
ChatGPT (instruct GPT) のようなPPO(生成結果の良し悪しをvalue modelで評価する)ではなくGRPO(自身の平均と比べて良いかどうかで学習)を使うことでvalue modelの学習・推論を不要にし、計算量を削減
DeepSeek-R1#
DeepSeek-R1-Zero + Supervised Fine-Tuning