経済・ファイナンスデータの計量時系列分析(1)


はじめに

幾何学,線形代数,統計学それぞれに浅い知識しか持っていないにわかなので,本書の一章を読むだけでもかなり時間がかかった.この記事では一章の内容のみについて理解したこと,調べたことなどをまとめる(+α わからなかったことも書く)

時系列データの種類

普段,時系列データと呼んでいるデータにもいくつか種類がある.

  1. 原系列

  2. 対数系列

  3. 差分系列

  4. 対数差分系列

  5. その他

上記の系列はあくまで一例であり,他にも変換処理を行った系列の呼び方が多く存在するが,よく使うのはこのあたりだと思う.原系列は変換処理などを行っていないそのままの時系列データのことで,対数系列,差分系列などはその名前の通りの変換処理を行った系列を示す.この辺の内容は既知のもので特に違和感もなかった.

季節調整

時系列データ特有の問題として,データに季節性のある変動が含まれることがある.例として,繁忙期などによる企業の売り上げの変化などがあげられる.このような季節性を持つ変動は時系列分析をする際には足かせになることが多いため,その変動を原系列から排除する季節調整という処理を行うことがある.また,季節調整をした系列を季節調整済み系列(または季節済み系列)と呼ぶ.

当著書には季節調整の手法については下記を参照するようにと書かれている.(有料なので中身は見ていないが)
https://doi.org/10.1017/CBO9781139164009

基本統計量

時系列データでは,他の形式のデータと同様に平均(期待値),と分散がそれぞれ重要となってくる.ただ,時系列データ固有の重要な統計量として,自己共分散と自己相関係数が存在する.

自己共分散

自己共分散は時系列データの2つの異なる時点での共分散のことで,下の式で表すことができる.

$$
\gamma_{kt} = Cov(y_t, y_{t-k}) = E\left[ (y_t - \mu_t)(y_{t-k}-\mu_{t-k}) \right]
$$

時系列データの任意の t と k に対して, t 時点と t-k 時点での共分散を計算しており,共分散が正の値であれば t 時点と t-k 時点はそれぞれ平均から同じ方向に動く傾向があるということが分かる.一般に k 次の自己共分散という言い方をし,k が 0 のときが一般的な分散と同じ定義となる.

自己相関

上記の自己共分散は時系列データの単位やスケールに依存してしまうという欠点があり,別のデータの自己共分散を比較することが難しい.そこで,自己共分散を以下の式で基準化したものを自己相関係数という.

$$
\rho_{kt} = Corr((y_t, y_{t-k}) = \frac{Cov(y_t, y_{t-k})}{\sqrt{Var(y_t) \cdot Var(y_{t-k})}} = \frac{\gamma_{kt}}{\sqrt{\gamma_{0t}\gamma_{0,t-k}}}
$$

自己共分散をそれぞれの系列の分散をかけたものの平方根で割っており,単位・スケールの違いを取り除いて変数間で係数を比較することができる.この自己相関係数によって,将来( k 時点先)の値がどちらに動くかを判断することができる場合があるため,時系列分析や予測においては非常に重要な要素となる.

確率過程・データ生成過程

上記で自己共分散・自己相関係数について触れたが,当著書ではそれらの欠点についても言及している.それは,時刻 t に依存するのにもかかわらず,時系列データの特性上,その時刻のデータは1度しか観測することができないというところだ.
他の形式のデータであれば十分な数の標本を抽出し平均や分散などを推定するが,時系列データは各データは時刻に依存してしまう.それを時刻ごとに推定していたら非常に精度の悪い推定になることは間違いない.

そこで,時系列データでは時系列をある確率変数列から生成されたデータだと仮定し,その確率過程(データ生成過程)を推定することで時刻に依存したデータを標本として用いることを可能としている.(イメージは,各自国の時点で分布を推定するのではなく,そのデータを生成するおおもとの規則を推定してしまおうという感じだと思う.)

定常性

定常性には弱定常性と強定常性がある.

弱定常性

弱定常性はその名の通り弱い定常性で,過程の期待値と自己共分散が時刻に依存せず一定であることを表す.

平均に関しては,時刻に依存せずに一定であるということで,その言葉のままの意味だ.自己共分散は少しイメージがしづらいが,自己共分散の時刻 t に依存せずに値が一定であるということのため,k 次の自己共分散における k によっては値が変化する.つまり,任意の時刻 t においての k 次の自己共分散同士は値が一定であるということだ.

強定常性

一方で強定常性は弱定常性よりも強い概念であり,任意の時刻 t と k において$${ (y_t, y_{t+1}, \dots, y_{t+k}) }$$の同時分布が同一であるということを表している.

【わからなかったところ】
当著書ではこのあたりについてはあまり解説されておらず,強定常性がどういう場面で必要になってくるのかなどが理解できなかった.
弱定常性と強定常性の違いについては,期待値や自己共分散などの統計量の性質か同時分布の性質かと書かれてはいるが,自分の中でそれがどう解釈したらいいのかわからない状態だ…

iid系列とホワイトノイズ

強定常過程の一つとして,iid(independently and identically distributed)系列と呼ばれるものがある.これは各時点のデータが独立で,なおかつ,同一の分布に従う系列のことを示す.強定常過程とあるようにiid系列は非常に強い仮定をしているため,通常はそれよりも弱い仮定であるホワイトノイズが用いられることが多い.

ホワイトノイズは時刻 t にかかわらず期待値が0で,1次以降の自己共分散が0,0次の自己共分散(つまり分散)が $${\sigma^2}$$となるものを指す.iid系列と違い分布の一致を仮定していないが,ホワイトノイズに正規過程を仮定した場合にはiid系列となる.

【わからなかったところ】
ホワイトノイズに正規過程を仮定すると強定常過程となり,iid系列となるというのが正しく理解できているかわからない…
今のところの理解では,正規分布に従った確率過程では平均と分散が一致することにより分布も一致していると考えられる,という感じ.これが正規分布を仮定できなければ平均と分散だけでは同一の分布だと言えないよね,みたいな.

自己相関の検定

単一の時刻での検定

まず,標本から平均,自己共分散,自己相関係数をそれぞれ算出する.

$$
\bar{y} = \frac{1}{T} \sum_{t=1}^{T}{y_t} \\
\gamma_k =  \frac{1}{T} \sum_{t=k+1}^{T}{(y_t - \bar{y})(y_{t-k}-\bar{y})}      k=0, 1, 2, \dots \\
\hat{\rho}_k = \frac{\hat{\gamma_k}}{\hat{\gamma_0}}    k = 1, 2, 3, \dots
$$

ここから k においての自己相関係数 $${\hat{\rho_k}}$$ を用いて自己相関があるかどうかの検定を行っていく.iid系列においては, $${\hat{\rho_k}}$$ が平均0, 分散 1/T の正規分布に従うことが一般に知られているため,それを利用するとその正規分布の95%の値である $${ \pm \frac{1.96}{\sqrt{T}} }$$ の外側に位置するかを確認する.標本から算出した自己相関係数がその外側に位置する場合は,帰無仮説である「有意な自己相関が存在しない」を棄却することができる.

任意の時刻範囲の検定(かばん検定)

上記では単一の時刻に限った検定を行ったが,当著書では次に任意の時刻範囲での検定を行っている.その検定では「範囲内の"すべて"の k に対して有意な k 次自己相関が存在しないこと」を帰無仮説とする.この検定をかばん検定と呼び,いくつかの統計量によって検定する方法が考案されているらしい.
当著書では Ljung and Box (1978) によって提案されている方法で,一定の仮定の下で実際に検定を行っている.

おわり

一章の内容はここまで.
幾何学,線形代数,統計学の基礎知識が乏しかったため,この内容を読むのにも調べながら,ChatGPTに相談しながら進めていったため非常に時間がかかってしまった.いまだにわからないこともいくつかあるが,定常性についてのざっくりとした理解ができたと思うので,この先を少しは楽に読めるようになったかもしれない.

この記事が気に入ったらサポートをしてみませんか?