時系列データの特徴

時系列データの特徴#

時系列分析では、各時点 $t$ （ $t = 1, \dots, T$ ）で観測されたデータ

{y_{t}}_{t = 1}^{T}

を、ある確率変数列 ${y_{t}}_{t = - \infty}^{\infty}$ からの1つの実現値とみなし、その確率変数列の生成過程に関する性質や構造を仮定（モデリング）していく。

この ${y_{t}}_{t = - \infty}^{\infty}$ を**データ生成過程（data generating process: DGP）や確率過程（stochastic process）**とよぶ。

時系列分析においては、もとのデータは原系列と呼ばれ、前処理した系列のことをそれぞれ次のように呼ぶ

対数差分による変化率の近似

対数の計算規則から

\log (y_{t}) - \log (y_{t - 1}) = \log (\frac{y_{t}}{y_{t - 1}}) = \log (1 + \frac{y_{t} - y_{t - 1}}{y_{t - 1}})

となる。また1次のテイラー近似により、小さい $x$ に対して

\log (1 + x) = x - \frac{x^{2}}{2} + \frac{x^{3}}{3} - \frac{x^{4}}{4} + \dots \approx x

ゆえに

\log (1 + \frac{y_{t} - y_{t - 1}}{y_{t - 1}}) \approx \frac{y_{t} - y_{t - 1}}{y_{t - 1}}

時間によって分布の形状が変化する場合、分析の難度が上がる。定常性（stationary）が仮定できる確率過程であれば、各時点におけるサンプルが同じ分布から得られたものと捉えて一般的な統計解析の枠組みを援用しやすい。

厳密には弱定常性と強定常性がある。

定義（弱定常性）

任意の $t$ と $k$ に対して、

\begin{array}{r} \begin{aligned} E (y_{t}) & = μ \\ Cov (y_{t}, y_{t - k}) & = E [(y_{t} - μ) (y_{t - k} - μ)] = γ_{k} \end{aligned} \end{array}

が成立する場合、過程は弱定常（weak stationary）といわれる

定義（強定常性）

任意の $t$ と $k$ に対して、

(y_{t}, y_{t + 1}, \dots, y_{t + k})^{⊤}

の同時分布が同一となる場合、過程は強定常（strict stationary）と言われる

各時点のデータが互いに独立でかつ同一の分布に従う系列は iid系列 と呼ばれる。

時系列データにおいてi.i.dを仮定できることはまれだが、**撹乱項（disturbance term）**をi.i.d.で仮定することはできる。また、もっと仮定が弱いものでホワイトノイズというものもある。

定義（ホワイトノイズ）

すべての時点 $t$ において

\begin{array}{r} \begin{aligned} E (ε_{t}) & = 0 \\ C o v [ε_{t}, ε_{t - k}] & = E (ε_{t} ε_{t - k}) = {\begin{cases} σ^{2}, & k = 0 \\ 0, & k \neq 0 \end{cases} \end{aligned} \end{array}

が成立するとき、 $ε_{t}$ は**ホワイトノイズ（white noise）**と呼ばれる

ホワイトノイズはすべての時点において期待値がゼロで、分散が一定の確率過程である