経済・ファイナンスデータの計量時系列分析(4)
予測
予測の基礎
時系列に対しての予測はいくつか考え方がある。当著書に記載されている例だと以下の3つの予測の方法があった。定常な系列を想定し、時刻 t-1 の系列の値が与えられているときの時刻 t の値を予測する。
系列の期待値にする
時刻 t の系列の取りうる値のひとつにする
時刻 t の系列の期待値にする
予測はどれかの方法が常に正解というわけではなく、その予測が適切かどうかを判断する方法によって優劣が分かれる。例えば、実測値と予測値の誤差がなるべく小さかったものが正しいとする場合や、取りうる値と予測値の平均二乗誤差が小さいものを正しいとする場合などだ。
その中で上記で上げた予測値の平均二乗誤差(MSE)が最も小さい予測を最適予測という。この最適予測の場合、上記の3つの予測方法のなかでは3番目がもっとも適切な方法となる。3番目の方法は1番目とは違い、時刻 t-1 の情報を利用した期待値のため、条件付き期待値と言われる。この条件付き期待値はすべての予測の中でMSEを最小にすることが知られている。(与えられた情報を活用している方法のため、感覚的にも精度の高い予測であることを感じる)
ちなみに、MSEにおいての最適予測が条件付き確率になるのは以下の式に寄って説明できる。条件付き期待値$${E(y_{t+h} | \Omega_t)}$$を$${\mu_{t+h|k}}$$とする。
$$
MSE(\hat y_{t+h|t}) = E(y_{t+h} - \hat y_{t+h|t} | \Omega_t)^2 \\
= E(y_{t+h} + \mu_{t+h|k} - \mu_{t+h|k} - \hat y_{t+h|t} | \Omega_t)^2 \\
= E(y_{t+h} - \mu_{t+h|k} | \Omega_t)^2 + E(\mu_{t+h|k} - \hat y_{t+h|t} | \Omega_t)^2 + E(2(y_{t+h} - \mu_{t+h|k})(\mu_{t+h|k} - \hat y_{t+h|t}) | \Omega_t) \\
= E(y_{t+h} - \mu_{t+h|k} | \Omega_t)^2 + E(\mu_{t+h|k} - \hat y_{t+h|t} | \Omega_t)^2
$$
最後の式変形によって3つ目の項(交差項)がゼロになっているのは、積の期待値の形になっているが片方が期待値が0でもう片方が定数になっているためである。
変形後の式を見ると、$${\hat y_{t+h|t} | \Omega_t}$$が条件付き期待値になるのが最もMSEが小さくなることが分かる。以上がMSEの最適予測が条件付き期待値であることの導出となる。
AR過程の予測
AR過程の予測の場合は、一般的に誤差項を正規ホワイトノイズと仮定して行う。MSEの最適予測を求める上では$${ \varepsilon_t \sim iid(0, N) }$$を仮定するのみでも良いが、後に行う区間推定では分布の過程も必要になる。
まず、1次のAR過程の式を以下のように定義する。
$$
y_t = c + \phi_1 y_{t-1} + \varepsilon_t, \varepsilon_t \sim iid(0, N)
$$
このとき、時刻 t までのyが与えられているものとし、条件付き期待値を用いた最適な1期先の予測は以下で行う。
$$
y_{t+1} = c + \phi_1 y_t
$$
その際の予測誤差$${e_{t+1|t}}$$とMSEは以下のように表せる。
$$
e_{t+1|t} = y_{t+1} - \hat y_{t+1|t} = \varepsilon_{t+1} \\
MSE(\hat y_{t+1|t}) = E(\varepsilon_{t+1}^2) = \sigma^2
$$
これを最適なh期先の予測に拡張してみる。
$$
y_{t +h} = c \sum_{k=0}^{h-1} \phi_1^{k} + \phi_1^h y_t + \sum_{k=0}^{h-1} \phi_1^{k} \varepsilon_{t+h-k} \\
\hat y_{t +h}|t = c \sum_{k=0}^{h-1} \phi_1^{k} + \phi_1^h y_t \\
MSE(\hat y_{t +h}|t) = E(\sum_{k=0}^{h-1} \phi_1^{k} \varepsilon_{t+h-k})^2 \\
= \sigma^2 \sum_{k=0}^{h-1} \phi_1^{2k} \\
= \frac{(1-\phi_1^{2h})\sigma^2}{(1-\phi_1^2)}
$$
上記の式を見ると、定常なAR過程の場合は$${\phi_1}$$の絶対値が1未満となるため、hが大きくなると$${y_t}$$の影響が非常に小さくなっていく。また、期待値も$${ \frac{c}{1-\phi_1^2} }$$に近づいていく。こういった期待値に近づいていくようなものを平均回帰的というらしい。また、MSEも上記の式をみると同様に平均回帰的であると言える。
上記を踏まえるとp次のAR過程の最適予測は以下の性質を持つ。
1はAR過程の特性故のもので、2, 3はそれぞれ定常なAR過程であれば$${|\phi| \lt 1}$$のため与えられた値の影響が少なくなり過程の期待値・分散に近づいていくというものなっている。
ちなみに、AR過程の次数について、上記では1次のAR過程について考えていたがp次に一般化するときは1次のようにh期先の予測値とMSEを容易に算出することはできない。式変形をしていくと分かるが、式が再帰的でとても複雑になるため算出するのであればコンピュータなどを用いて逐次的に計算することが一般的となる。
区間予測
上記で行っていた最適予測は$${y_{t+h}}$$を一つの値(最適予測の場合は期待値)として予測しており、こういった予測を点予測という。しかし、点予測ではなく、$${y_{t+h}}$$を〇%の確率で含むような区間を予測する区間予測の方が適している場合も存在する。
点予測に対する区間予測の利点は以下の通りとなる。
区間予測は区間を予測するため、実際の値を含む確率を扱える
区間予測の不確実性は区間の長さで表現できる
1に関しては、点予測だとある一点のみを予測するため、連続値である場合は実際の値がその一点になる確率は限りなく0に近い。2は、点予測では不確実性はMSEによってあらわされるが、区間予測では区間の長さのため直感的に分かりやすいというのもある。
区間予測をする際には点予測とは異なり、求めたいh期先のyの条件付き分布を求める必要がある。例として1期先の$${y_{t+1}}$$を求める場合、$${\varepsilon_{t+1}}$$を正規分布に従うと仮定して考えてみる。正規分布は期待値と分散によって分布が一意に特定できるが、この場合条件付き期待値は最適予測、条件付き分散は誤差項の分散(MSEと同値)によって求められるため、$${N(\hat y_{t+1|t}, MSE(\hat y_{t+1|t}))}$$となる。
その場合、正規分布の両側の5%の区間は以下のように求めることが出来るため、1期先の実際の値は95%がこの区間(式の下の区間)に収まっていると予想することが出来る。
$$
P(-1.96 \lt \frac{y - \hat y_{t+1|t}}{\sqrt{MSE(\hat y_{t+1|t})}} \lt 1.96) = 0.95 \\
(\hat y_{t+1|t} - 1.96 \sqrt{MSE(\hat y_{t+1|t})}, \hat y_{t+1|t} + 1.96 \sqrt{MSE(\hat y_{t+1|t})})
$$
上記は1次のAR過程でのh期先の区間予測のため容易に予測値やMSEの計算ができるが、p次のAR過程でのh期先の区間予測は計算が非常に困難となる。これは前節の最後に軽く触れたが、p次のAR過程でのh期先のMSEと予測値は解析的に求めることが難しいため、逐次的に求めることが一般的であるということが関係している。正確な区間予測をするのであればカルマンフィルターを用いる方法などがあるが、当著書ではp次のAR過程に従ってh期先の値を発生させるシミュレーションを行い、その際に得た疑似的な標本のMSEを求めて区間推定を行う方法が解説されている。
MA過程の予測
次にMA過程の予測がどう行われるかについてだが、MA過程はAR過程とは違い過去の予測値には依存せず、過去の誤差項に依存をしている。誤差項に依存している場合は、実際に直接観測することが出来ないため予測値やMSEを算出することが困難となる。しかし、反転可能で∞次のAR過程に書き換えることが出来るMA過程ならばその限りではない。なぜなら、任意の時点の誤差項を観測値から求めることが出来るためである。
ではまず、過去の∞個の観測値を取得できるものと仮定して、反転可能なMA過程での予測値とMSEの算出を行ってみる。反転可能なMA過程の式を以下に表す。
$$
y_t = \sum_{k=1}^{\infty} \eta_k y_{t-k} + \varepsilon_t
$$
ここから、任意の時刻 t においての誤差項は観測値から以下のように算出が可能となる。
$$
\varepsilon_t = y_t - \sum_{k=1}^{\infty} \eta_k y_{t-k}
$$
それらを考慮すると、2次のMA過程では以下のように1期先の最適予測$${ \hat y_{t+1|t} }$$とMSEを求めることが出来る。最適予測を求める場合は、誤差項の期待値である0を予測に用いる。ちなみに、2次のMA過程の場合は3期先以降では過去の誤差項を全く含まないため、期待値の0ですべて計算することになる。
$$
y_{t+1} = \mu + \varepsilon_{t+1} + \theta_1 \varepsilon_{t} + \theta_2 \varepsilon_{t-1} \\
\hat y_{t+1|t} = \mu + \theta_1 \varepsilon_{t} + \theta_2 \varepsilon_{t-1} \\
\hat e_{t+1|t} = \varepsilon_{t+1} \\
MSE(\hat y_{t+1|t}) = E(\hat e_{t+1|t}^2) = E(\varepsilon_{t+1}^2) = \sigma^2
$$
MA過程の場合は、AR過程のようにp次に拡張すると式が複雑になり簡単に算出することが出来なくなる、ということはない。p次に拡張したとしても時刻 t の誤差項を同様に求めることができるため、観測値から容易に最適予測とMSEを算出できる。これらを踏まえると、q次のMA過程では一般に以下の性質があることが言える。
ちなみに、実世界では観測値は有限個であるため、観測期間の前は観測値を仮定の期待値に置くという方法を取る。MA過程を∞次のAR過程に書き直した際に過去の観測値の影響が減衰していくため、標本数が十分に大きい場合は初期値の影響が無視できると考えられている。
ARMA過程の予測
ARMA過程の予測は前節で書いたAR過程とMA過程の予測を組み合わせるだけで良い。AR過程は言わずもがな、MA過程も∞次のAR過程に書き直せるため、実質的に過去の観測値(と誤差項の初期値)のみに依存していることなる。
ただし、AR過程の要素が入っているために(p, q)次のARMA過程のh期先の最適予測とMSEは容易には計算が出来ない。そのため、ARMA過程もシミュレーションなどによって区間予測を行う方法を取る必要がある。
感想
AR過程、MA過程、ARMA過程それぞれで区間予測(AR過程は点予測も)を実際にどう求めるのかを知ることが出来た。その中で、MA過程が反転可能であり∞次のAR過程に書き直せることで観測値から予測が容易にできる、ということを知り反転可能であることの一つ恩恵を感じられた。
前章ではそれぞれの過程についてや、その性質を重点的に学んだがいまいち実感がわいていないところがあった。ただ、この章でそれぞれの過程について少しだけ感覚的な理解が深まったように感じた。
この記事が気に入ったらサポートをしてみませんか?