指数分布#
概要#
指数分布(exponential distribution) は生存時間などを表すのに使われる分布。幾何分布の連続版であり、ポアソン過程における事象間の待ち時間を表す。離散確率分布における幾何分布と同様に、連続確率分布の中で唯一の無記憶性をもつ分布である。
確率密度関数#
\(x\):対象の変数(例:「商品が売れるまでの日数」、「製品が故障するまでの年数」)
\(\lambda > 0\):rate parameter(発生率)
この分布を\(\text{Exp}(\lambda)\)と表記する。
累積分布関数#
例えば、「ある商品が\(x\)日で売れる確率」を \(\text{Exp}(\lambda) = \lambda e^{-\lambda x}\) とすると、累積分布関数 \(P(X < x) = 1- e^{-\lambda x}\) は「商品が\(x\)日未満で売れる確率」となる。
期待値・分散#
図#
import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import expon
x = np.linspace(0, 5, 100)
fig, axes = plt.subplots(1, 2, figsize=[8, 3])
for lam in [0.5, 1, 2]:
axes[0].plot(x, expon.pdf(x, scale=1/lam), label=fr"$\lambda={lam}$")
axes[1].plot(x, expon.cdf(x, scale=1/lam), label=fr"$\lambda={lam}$")
axes[0].set(title="PDF", xlabel="x", ylabel="f(x)")
axes[0].legend()
axes[1].set(title="CDF", xlabel="x", ylabel="F(x)")
axes[1].legend()
fig.tight_layout()
fig.show()
ハザード関数#
\(X\)を非負の連続型確率変数とし、その密度関数を\(f(x)\)、分布関数を\(F(x)\)とする。\(X\)を生命が死亡したり機械が故障する時間を表す変数とみなすと、\(x\)時間まで生存していて次の時間\(x+\Delta\)までに死亡する条件付き確率は
両辺を\(\Delta\)で割ると
\(\Delta \to 0\)の極限を考えると、\(\frac{F(x+\Delta)-F(x)}{\Delta}\)は微分の定義と同じ形であるから、分布関数の微分すなわち確率密度関数である。
なので
となる。
この「\(x\)時間まで生存していて次の時間\(x+\Delta\)までに死亡する条件付き確率」
を ハザード関数 (hazard function) という。
指数分布のハザード関数#
ハザード関数に指数分布をあてはめると
であり、次の瞬間に死亡する確率密度は時間\(x\)に無関係で常に一定で\(\lambda\)となっていることがわかる(幾何分布や指数分布のこの性質は 無記憶性 と呼ばれる)。
ハザード関数による非負の連続型確率分布の生成#
非負の連続型確率変数の分布は、ハザード関数によって特徴づけられる。
ハザード関数の両辺を積分すると
となる
途中式メモ
\(u=1-F(t)\) と置き換えると、 \(d u=-F^{\prime}(t) d t=-f(t) d t\) と置き換えられる。したがって
となる。\(-\frac{1}{u}\)の原始関数は\(-\log u\)なので
\(u=1-F(t)\)を代入して戻せば
これは、次のように整理できる
途中式
\(S(x):=1-F(x)\)とおく(これは 生存関数 と呼ばれる)。するとハザード関数は
となる。ハザード関数の積分は、確率変数が非負なので\(F(0)=0 \implies S(0) = 1 \implies \log S(0) = 0\) なので、
となる。両辺を-1倍して指数をとれば
となるので、ハザード関数は
と整理でき、また
例えば\(\lambda(x) = \lambda\)と定数をおくと指数分布が生ずる。
性質#
無記憶性: \(P(X > s + t \mid X > s) = P(X > t)\)。連続確率分布の中で無記憶性を持つのは指数分布のみ
ガンマ分布\(\text{Gamma}(1, 1/\lambda)\)の特殊ケース
ポアソン過程における事象間の待ち時間は指数分布に従う
\(n\)個の独立な\(\text{Exp}(\lambda)\)の和はガンマ分布\(\text{Gamma}(n, 1/\lambda)\)に従う
ハザード関数が定数\(\lambda\)であることが指数分布を特徴づける
応用例#
機器の故障までの時間(故障率が一定の場合)
顧客が来店するまでの待ち時間
放射性物質の崩壊までの時間
生存分析における基本的な生存時間モデル
待ち行列理論(M/M/1キューなど)