ポアソン分布#
概要#
ポアソン分布(Poisson distribution)は、一定の時間・空間の中で稀に起こる事象の発生回数を表す離散確率分布である。
二項分布において試行回数\(n\)が大きく、成功確率\(p\)が小さい場合の極限として導出される(ポアソンの小数の法則)。事象の発生が互いに独立で、発生率が一定であるポアソン過程の基礎となる分布である。
確率質量関数#
\(\lambda > 0\): 単位時間(空間)あたりの平均発生回数(rate parameter)
二項分布からの導出#
二項分布\(B(n,p)\)において\(n \to \infty, \ p \to 0\)かつ\(np = \lambda\)(一定)のとき:
\(n \to \infty\)のとき、\(\frac{n(n-1)\cdots(n-k+1)}{n^k} \to 1\)、\(\left(1-\frac{\lambda}{n}\right)^{n} \to e^{-\lambda}\)、\(\left(1-\frac{\lambda}{n}\right)^{-k} \to 1\) であるから、
累積分布関数#
閉じた形の表現はなく、正則化された上側不完全ガンマ関数を用いて
と表すこともできる。
期待値・分散#
ポアソン分布の特徴的な性質として、期待値と分散が等しい(等分散性, equidispersion)。
期待値の導出
図#
import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import poisson
fig, axes = plt.subplots(1, 2, figsize=[8, 3])
for lam in [1, 3, 5, 10]:
k = np.arange(0, 20)
pmf = poisson.pmf(k, mu=lam)
axes[0].plot(k, pmf, 'o-', markersize=4, label=fr"$\lambda={lam}$")
cdf = poisson.cdf(k, mu=lam)
axes[1].step(k, cdf, where='mid', label=fr"$\lambda={lam}$")
axes[0].set(title="PMF", xlabel="k", ylabel="P(X=k)")
axes[0].legend()
axes[1].set(title="CDF", xlabel="k", ylabel="F(k)")
axes[1].legend()
fig.tight_layout()
fig.show()
性質#
再生性: \(X_1 \sim \text{Poi}(\lambda_1), X_2 \sim \text{Poi}(\lambda_2)\)が独立なら\(X_1 + X_2 \sim \text{Poi}(\lambda_1 + \lambda_2)\)
ポアソンの小数の法則: 二項分布\(B(n,p)\)で\(n\)が大きく\(p\)が小さいとき\(\text{Poi}(np)\)で近似可能
正規近似: \(\lambda\)が大きいとき正規分布\(N(\lambda, \lambda)\)で近似可能(中心極限定理)
指数型分布族に属する
過分散(overdispersion): 実データでは分散が期待値より大きいことが多く、その場合は負の二項分布が代替として用いられる
応用例#
単位時間あたりのコールセンターへの着信回数
ウェブサイトへの単位時間あたりのアクセス数
一定面積あたりの放射性崩壊の回数
希少疾患の発症数のモデリング
ポアソン回帰(GLMの一種)によるカウントデータの分析