# 生存分析

生存確率に関わる要因を調べたいときなどに使う

死亡したらそれ以降その個体のデータは得られなくなる（脱落する）


## ハザード関数

### 生存率関数

ある患者の生存時間を表す確率変数を$T$とする（$T>0$）。

$T$の確率密度関数（PDF）を$f(t)$とする。$f(t)$は「期間tが経過した時点で死亡する確率」を意味する。

$T$の累積分布関数（CDF）は

$$
F(t) = P(T \leq t) = \int^t_0 f(u) du
$$

$F(t)$は「期間tが経過するまでに死亡している確率」である。


$F(t)$をベースに、「期間tが経過するまで死亡していない確率」を意味する **生存率関数** （survival rate function）$S(t)$を考えることができる

$$
S(t) = P(T > t) = 1 - F(t)
= \int_t^\infty f(u) du
$$


$$
f(t) = - \frac{d S(t)}{d t}
$$

という関係になる

### ハザード関数

**ハザード関数** （hazard function）は、「ある時点まで生存していたことを前提にして、その時点に於いて死亡する確率」という条件付き確率

$$
h(t) = \lim_{dt\to 0} \frac{P(T \leq t + dt| T > t)}{dt}
$$

例えば10歳での生存率と90歳の生存率を比べると、90歳の生存率はかなり低くなると考えられる。

そこを「89歳まで生存していた人が90歳に死亡する確率」と条件付きにすることで、真に測りたい率を得る。

整理すると

$$
\begin{align}
h(t)
&= \lim_{dt\to 0} \frac{P(T \leq t + dt| T > t)}{dt}\\
&= \lim_{dt\to 0} \frac{P(t < T \leq t + dt)}{P(T > t) dt} \quad (\because \frac{P(T > t)}{P(T > t)}を乗じて分子を同時確率にした)\\
&= \lim_{dt\to 0} \frac{P(t + dt) - P(t)}{dt} \times \frac{1}{P(T > t)}\\
&= \frac{d F(t)}{d t} \times \frac{1}{P(T > t)}\\
&= \frac{f(t)}{S(t)}\\
\end{align}
$$

なので

$$
h(t) = \frac{f(t)}{S(t)}
= \frac{\text{t期に死亡する確率} }{\text{t期まで生存している確率} }
$$

という関係になる

## 参考

- [武冨奈菜美, & 山本和嬉. (2023). 生存時間解析・信頼性解析のための統計モデル. 日本統計学会誌, 52(2), 69-112.](https://www.jstage.jst.go.jp/article/jjssj/52/2/52_69/_pdf)
- [生存時間解析〜生存関数とハザード関数とその関係〜 | AVILEN AI Trend](https://ai-trend.jp/basic-study/survival-data-analysis/survival-function/)