連続確率分布#
正規分布#
確率変数\(X\)が平均\(\mu\)、分散\(\sigma^2\)の正規分布(normal distribution)に従うとは、\(X\)の確率密度関数が
で与えられることをいい、この分布を\(N(\mu, \sigma^2)\)で表す。
指数分布#
指数分布(exponential distribution) は生存時間などを表すのに使われる分布。幾何分布の連続版。
ハザード関数#
\(X\)を非負の連続型確率変数とし、その密度関数を\(f(x)\)、分布関数を\(F(x)\)とする。\(X\)を生命が死亡したり機械が故障する時間を表す変数とみなすと、\(x\)時間まで生存していて次の時間\(x+\Delta\)までに死亡する条件付き確率は
両辺を\(\Delta\)で割ると
\(\Delta \to 0\)の極限を考えると、\(\frac{F(x+\Delta)-F(x)}{\Delta}\)は微分の定義と同じ形であるから、分布関数の微分すなわち確率密度関数である。
なので
となる。
この「\(x\)時間まで生存していて次の時間\(x+\Delta\)までに死亡する条件付き確率」
を ハザード関数 (hazard function) という。
指数分布のハザード関数#
ハザード関数に指数分布をあてはめると
であり、次の瞬間に死亡する確率密度は時間\(x\)に無関係で常に一定で\(\lambda\)となっていることがわかる(幾何分布や指数分布のこの性質は 無記憶性 と呼ばれる)。
ハザード関数による非負の連続型確率分布の生成#
非負の連続型確率変数の分布は、ハザード関数によって特徴づけられる。
ハザード関数の両辺を積分すると
となる
途中式メモ
\(u=1-F(t)\) と置き換えると、 \(d u=-F^{\prime}(t) d t=-f(t) d t\) と置き換えられる。したがって
となる。\(-\frac{1}{u}\)の原始関数は\(-\log u\)なので
\(u=1-F(t)\)を代入して戻せば
これは、次のように整理できる
途中式
\(S(x):=1-F(x)\)とおく(これは 生存関数 と呼ばれる)。するとハザード関数は
となる。ハザード関数の積分は、確率変数が非負なので\(F(0)=0 \implies S(0) = 1 \implies \log S(0) = 0\) なので、
となる。両辺を-1倍して指数をとれば
となるので、ハザード関数は
と整理でき、また
例えば\(\lambda(x) = \lambda\)と定数をおくと指数分布が生ずる
ワイブル分布#
時間の経過とともに死亡しやすくなるようなハザード関数を考えたい場合は、
というハザード関数が考えられる。
これの積分は
であるので、このハザード関数を前述の
に代入すると、
となる。この分布
を ワイブル分布(Weibull distribution) といい、生存解析で基本となる分布である。
ガンマ分布#
ガンマ分布(gamma distribution)は非負の実数直線上の代表的な確率分布。その確率密度関数は
である。\(\alpha\)はshape parameter、\(\beta\)はscale parameterと呼ばれ、\(\alpha > 0, \beta > 0\)である。
尺度変換\(Y = X /\beta\)を行うと、\(Y\)の分布は\(\beta f(\beta y|\alpha, \beta)\)となり
となる。
尺度変換\(\lambda = 1 /\beta\)を行った
という定義も使われる(\(\lambda\)はrateと呼ばれる)
\(a=1\)のとき、ガンマ分布は指数分布と一致する。指数分布はmemoryless
ここで\(\Gamma(\alpha)\)はガンマ関数(gamma function)
\(\chi^2\)分布#
データの二乗和が従う確率分布のこと。標準正規分布に従う確率変数\(X_i\)の二乗和\(Z_i = \sum_i^n X_i^2\)は自由度\(n\)のカイ2乗分布(chi-square distribution with n degrees of freedom)に従う(\(n\)は自然数)
カイ2乗分布の密度関数は