時系列データの特徴#

時系列データ#

時系列分析では、各時点\(t\)\(t=1,\dots,T\))で観測されたデータ

\[ \{y_t\}_{t=1}^T \]

を、ある確率変数列\(\{y_t\}_{t=-\infty}^{\infty}\)からの1つの実現値とみなし、その確率変数列の生成過程に関する性質や構造を仮定(モデリング)していく。

この\(\{y_t\}_{t=-\infty}^{\infty}\)を**データ生成過程(data generating process: DGP)確率過程(stochastic process)**とよぶ。

対数系列、差分系列#

時系列分析においては、もとのデータは原系列と呼ばれ、前処理した系列のことをそれぞれ次のように呼ぶ

  • 対数系列…対数変換したもの:\(\log y_t\)

  • 差分系列階差系列)…差分をとったもの:\(\Delta y_t = y_t - y_{t-1}\)

  • 対数差分系列…対数系列の差分。変化率\((y_t-y_{t-1})/y_{t-1}\)の近似:\(\Delta \log y_t\)

対数差分による変化率の近似

対数の計算規則から

\[ \log \left(y_t\right) - \log \left(y_{t-1}\right) =\log \left(\frac{y_t}{y_{t-1}}\right) =\log \left(1+\frac{y_t-y_{t-1}}{y_{t-1}}\right) \]

となる。また1次のテイラー近似により、小さい\(x\)に対して

\[ \log(1 + x) = x - \frac{x^2}{2} + \frac{x^3}{3} - \frac{x^4}{4} + \cdots \approx x \]

ゆえに

\[ \log \left(1+\frac{y_t-y_{t-1}}{y_{t-1}}\right) \approx \frac{y_t-y_{t-1}}{y_{t-1}} \]

定常性#

時間によって分布の形状が変化する場合、分析の難度が上がる。 定常性(stationary)が仮定できる確率過程であれば、各時点におけるサンプルが同じ分布から得られたものと捉えて一般的な統計解析の枠組みを援用しやすい。

厳密には弱定常性と強定常性がある。

  • 弱定常性:過程の期待値と自己共分散が時間を通じて一定である

  • 強定常性:同時分布が時間を通じて不変である

定義(弱定常性)

任意の\(t\)\(k\)に対して、

\[\begin{split} \begin{aligned} E\left(y_t\right) &=\mu \\ \operatorname{Cov}\left(y_t, y_{t-k}\right) &=E\left[\left(y_t-\mu\right)\left(y_{t-k}-\mu\right)\right]=\gamma_k \end{aligned} \end{split}\]

が成立する場合、過程は弱定常(weak stationary)といわれる

定義(強定常性)

任意の\(t\)\(k\)に対して、

\[ (y_t, y_{t+1}, \ldots, y_{t+k})^\top \]

の同時分布が同一となる場合、過程は強定常(strict stationary)と言われる

ホワイトノイズ#

iid系列#

各時点のデータが互いに独立でかつ同一の分布に従う系列は iid系列 と呼ばれる。

時系列データにおいてi.i.dを仮定できることはまれだが、**撹乱項(disturbance term)**をi.i.d.で仮定することはできる。 また、もっと仮定が弱いものでホワイトノイズというものもある。

ホワイトノイズ#

定義(ホワイトノイズ)

すべての時点\(t\)において

\[\begin{split} \begin{aligned} E\left(\varepsilon_t\right) &= 0 \\ Cov[\varepsilon_t, \varepsilon_{t-k}] & =E(\varepsilon_t \varepsilon_{t-k}) = \begin{cases}\sigma^2, & k=0 \\ 0, & k \neq 0\end{cases} \end{aligned} \end{split}\]

が成立するとき、\(\varepsilon_t\)は**ホワイトノイズ(white noise)**と呼ばれる

ホワイトノイズはすべての時点において期待値がゼロで、分散が一定の確率過程である