生存分析#

生存確率に関わる要因を調べたいときなどに使う

死亡したらそれ以降その個体のデータは得られなくなる(脱落する)

ハザード関数#

生存率関数#

ある患者の生存時間を表す確率変数を\(T\)とする(\(T>0\))。

\(T\)の確率密度関数(PDF)を\(f(t)\)とする。\(f(t)\)は「期間tが経過した時点で死亡する確率」を意味する。

\(T\)の累積分布関数(CDF)は

\[ F(t) = P(T \leq t) = \int^t_0 f(u) du \]

\(F(t)\)は「期間tが経過するまでに死亡している確率」である。

\(F(t)\)をベースに、「期間tが経過するまで死亡していない確率」を意味する 生存率関数 (survival rate function)\(S(t)\)を考えることができる

\[ S(t) = P(T > t) = 1 - F(t) = \int_t^\infty f(u) du \]
\[ f(t) = - \frac{d S(t)}{d t} \]

という関係になる

ハザード関数#

ハザード関数 (hazard function)は、「ある時点まで生存していたことを前提にして、その時点に於いて死亡する確率」という条件付き確率

\[ h(t) = \lim_{dt\to 0} \frac{P(T \leq t + dt| T > t)}{dt} \]

例えば10歳での生存率と90歳の生存率を比べると、90歳の生存率はかなり低くなると考えられる。

そこを「89歳まで生存していた人が90歳に死亡する確率」と条件付きにすることで、真に測りたい率を得る。

整理すると

\[\begin{split} \begin{align} h(t) &= \lim_{dt\to 0} \frac{P(T \leq t + dt| T > t)}{dt}\\ &= \lim_{dt\to 0} \frac{P(t < T \leq t + dt)}{P(T > t) dt} \quad (\because \frac{P(T > t)}{P(T > t)}を乗じて分子を同時確率にした)\\ &= \lim_{dt\to 0} \frac{P(t + dt) - P(t)}{dt} \times \frac{1}{P(T > t)}\\ &= \frac{d F(t)}{d t} \times \frac{1}{P(T > t)}\\ &= \frac{f(t)}{S(t)}\\ \end{align} \end{split}\]

なので

\[ h(t) = \frac{f(t)}{S(t)} = \frac{\text{t期に死亡する確率} }{\text{t期まで生存している確率} } \]

という関係になる

参考#