負の二項分布#
概要#
負の二項分布(negative binomial distribution)は、独立なベルヌーイ試行において\(r\)回目の成功が起こるまでの失敗回数の分布である。幾何分布の一般化であり、\(r=1\)のとき幾何分布に一致する。
ポアソン分布では期待値と分散が等しいという制約があるが、負の二項分布はこの制約がなく**過分散(overdispersion)**を扱えるため、カウントデータの分析において重要な代替モデルとなる。
確率質量関数#
\(r > 0\): 成功回数(自然数。一般化する場合は正の実数)
\(p\): 各試行での成功確率 (\(0 < p \leq 1\))
\(r\)が正の実数の場合、二項係数は次のように一般化される:
累積分布関数#
ここで\(I_p\)は正則化不完全ベータ関数である。
期待値・分散#
分散は次のように書き直すことができる:
すなわち\(V[X] > E[X]\)が常に成り立ち、ポアソン分布(\(V[X]=E[X]\))に比べて過分散となる。\(r \to \infty\)のとき第2項が消え、ポアソン分布に近づく。
図#
性質#
\(r=1\)のとき幾何分布に一致する
再生性: \(X_1 \sim \text{NB}(r_1, p), X_2 \sim \text{NB}(r_2, p)\)が独立なら\(X_1 + X_2 \sim \text{NB}(r_1+r_2, p)\)
ポアソン-ガンマ混合モデル: \(X \mid \lambda \sim \text{Poi}(\lambda)\)で\(\lambda \sim \text{Gamma}(r, (1-p)/p)\)のとき、\(X\)の周辺分布は\(\text{NB}(r, p)\)となる。この解釈により、負の二項分布は「発生率に個体差があるポアソン過程」とみなせる
\(r \to \infty\)で\(r(1-p)/p = \mu\)を一定に保つとポアソン分布\(\text{Poi}(\mu)\)に収束する
応用例#
過分散のあるカウントデータの分析(ポアソン回帰の代替としての負の二項回帰)
生態学における個体数のモデリング
RNA-seqデータにおける遺伝子発現量の分析(DESeq2等で使用)
保険数理における事故件数のモデリング