DeepSeek#

DeepSeekという中国の企業が開発したLLM

計算量の削減の工夫が随所に込められており、2025年1月には高性能なLLMを安価に提供してOpenAIを脅かし、NVIDIAの株価を一日で17%暴落させた

DeepSeek-V2#

[2405.04434] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

  • すごい点:計算量が圧倒的に少なく、安く作れる

  • 計算量削減の工夫:

    • Multi-head Latent Attention (MLA):Key, Valueの次元を大きく圧縮

    • DeepSeekMoE:Shared ExpertとRouted Expertがあり、上位k個を選んで実行(使う分だけactivate)

    • 推論時は高速化のためにモデルを8bit floating pointに変換して推論した

DeepSeek-V3#

[2412.19437v1] DeepSeek-V3 Technical Report

  • サイズ:671B params

  • 性能:GPT-4oやLlama3.1に匹敵

  • すごい点:計算量が圧倒的に少なく、安く作れる

  • 計算量削減の工夫:

    • 多くの計算を8bit floating pointで行う

    • Multi-head Latent Attention (MLA):Key, Valueの次元を大きく圧縮

    • DeepSeekMoE:Shared ExpertとRouted Expertがあり、上位k個を選んで実行(→671Bあっても各トークンで使うのは37B)

  • データ:14.8兆トークン

DeepSeek-R1-Zero#

  • DeepSeek-V3-Baseをもとに強化学習で対話用にしたもの。GPT-3に対するInstructGPTのようなものと思われる。

  • すごい点:計算量が少ない

  • ChatGPT (instruct GPT) のようなPPO(生成結果の良し悪しをvalue modelで評価する)ではなくGRPO(自身の平均と比べて良いかどうかで学習)を使うことでvalue modelの学習・推論を不要にし、計算量を削減

DeepSeek-R1#

  • DeepSeek-R1-Zero + Supervised Fine-Tuning

参考#