経済・ファイナンスデータの計量時系列分析(3)


ARMAモデルの推定

最小二乗法(OLS)

ARMAモデルを推定する上でよく利用されるのが最小二乗法(Ordinary less Squares, OLS)で、例として以下の式をAR(1)を推定するのを考えてみる。

$$
y_t = c + \phi_1 y_{t-1} + \varepsilon_t,     \varepsilon_t \sim W.N.(\sigma^2)
$$

この場合は定数以外の説明変数が一つしかないため、単回帰となる。これが複数の説明変数であれば重回帰(普通は説明変数は複数あると思うので、一般的に用いられるのは重回帰の方だと思う)。

最小二乗法の考え方は単純で、正解となる被説明変数(目的変数とも言う)と推定量とその他の説明変数などから予測した値の差(残差)を最小にするように推定量を最適化したものとなっている。導出の式は単純なので、解説している記事を貼るのみとする。

備忘録のために手順を書いておくと、

  1. 残差の式を記述する

  2. 残差の2乗の和(残差平方和)を求める

  3. 2をそれぞれの推定する変数について偏微分する

  4. 3が0になる推定量を求める

また、当著書にはOLS推定量の性質として以下の3つが記載されている。

  1. OLS推定量は一定推定量である

  2. OLS推定量の推定量を基準化したものは漸近的に正規分布に従う

  3. $${\varepsilon_t \sim iid N(0, \sigma^2)}$$のとき、OLS推定量は一致推定量の中で漸近的に最小の分散共分散行列を持つ

1の一致推定量は、標本数が大きくなったときに真の値に近づいていく推定量のことを言う。2については当著書の後の章で意図の解説や導出がされるそうなので、一旦ここではスルーしておく。3は漸近有効性というのものを示しているそうで、その漸近有効性がわからなかったので調べてみた。ヤンキーではないのだが、下の記事がわかりやすかった。

上記の記事では漸近推定量は以下のような説明をされている。

任意の推定量を n → ∞ して振る舞う分布(漸近分布という)の分散(漸近分散という)が最小値をとる(クラーメル・ラオの不等式から判断)とき推定量は漸近有効性をもつ

https://note.com/outlifest/n/n3989d93b7253

情報を効率的に利用してパラメータの推定を行うことができるということを言っていて、OLS推定量は他の推定量よりも効率が良いとのことなのだろう。確かに、逐次的・反復的に最適化を行っていくような手法よりも、解析的に推定量を求める手法のほうがより情報を効率的に使えているように感じる(おそらく効率よくという表現より、ばらつきがなくというのが正しいかもしれない)。

あと、当著書に以下のような記述があるが、あまり内容を理解できていないのでまた今度詳しく調べる。

一般にOLS推定量は不偏推定量となり、すべての線形不偏推定量の中で最小の分散共分散行列をもつ最良線形不偏推定量となる。しかし、AR過程は過去の誤差項と説明変数が相関を持つため不偏推定量とはならない。

OLSはAR過程に対しては上記のように欠点が存在するが、誤差項の分布を仮定せずに推定を行えるという利点があるらしく、時系列分析にはとく用いられる手法の一つとなる。しかし、当著書で説明されているARMA、GARCH、マルコフ転換などのモデルには適していないらしい。

最尤法

最尤法ではOLSでは解くことが難しい複雑なモデルの推定に用いられることが多い。当著書の例としてARMAモデルを最尤法で推定する方法を説明している。

最尤法では、尤度関数(もしくは単純に尤度)と呼ばれる当てはまりの良さの関数の値が最も高くなるようなパラメータを推定することを基本としている。例えば、コインを投げたときに10回中8回表が出るときの、その観測値からコインの表が出る確率を推定する。その確率が0.1である場合にどれほどのその事象がよく起こるか考えてみると、直感的にもあまり起こらないことが分かる。この確率を動かしていった際の観測した事象への当てはまりの良さを尤度関数で表し、その尤度関数が最大になる確率を推定していく。

最大の尤度関数を求める際には計算を簡略化するために両辺の対数をとった対数尤度関数が用いられることが多い。例えば先程のコインの例では、以下の式で最大の対数尤度関数のパラメータを推定できる。

$$
L(p) = \log{[{}_{10} C_8 \cdot p^8 \cdot (1 - p)^2]} \\
= k + 8 \log{p} + 2 \log{(1-p)} \\
L^{\prime}(p) = \frac{8}{p} - \frac{2}{1-p} \\
$$

上の式で対数尤度関数の微分を求めたため、その値が0になるpを推定すると0.8となり、最尤法で推定したコインの表が出る確率は0.8であることが分かる。

ここまでは最尤法自体の説明だったが、次に本題である最尤法でのARMAモデルの推定についての説明を見ていく。

最尤法ではOLSとは違い、誤差項$${\varepsilon_t}$$の分布を仮定する必要がある。これは尤度関数を求める際に仮定した分布が必要となるためである。多くの場合は誤差項が正規ホワイトノイズに従うと仮定されるが、一部そうでない場合もある(これはのちの章で説明されるらしい)。

推定したいパラメータを$${\bold{\theta} = (c, \phi, \sigma^2)}$$とおくと、最大化したい尤度関数はパラメータ$${\bold{\theta}}$$からみた確率密度関数となる。ベイズの法則を使って任意の時刻の系列に対して対数化した同時の確率密度を以下の式で求めることができる(以下は1次のAR過程に従う場合の成立する)。

$$
L(\bold\theta) = \sum_{t=1}^{T} \log f_{Y_t, Y_{t-1}} (y_t | y_{t-1}; \bold\theta)
$$

これを最大化する際には、$${f_{Y_t, Y_{t-1}} (y_t | y_{t-1}; \bold\theta)}$$の計算方法を知る必要があるので、ここで$${\varepsilon_t \sim iid N(0, \sigma^2)}$$と仮定し、以下の式で求める。

$$
f_{Y_t, Y_{t-1}} (y_t | y_{t-1}; \bold\theta) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left[ \frac{-(y_t - c - \phi y_{t-1})^2}{2\sigma^2} \right]
$$

上記の尤度関数のイメージとしては、時刻を1つずつずらしていったときのそれぞれの観測値と推定したパラメータを用いた分布の当てはまりの良さをすべて足し合わせていき、その中で最も当てはまりの良いパラメータを探しているような感じ。

また、上記の式で対数尤度関数を最大化していくようにパラメータについて解いていくと、$${(y_t - c - \phi y_{t-1})^2}$$の部分を最小化するというOLSと同じ結論にたどり着いていく。ただ、OLS推定量と異なるのはその後に誤差項の分散のパラメータも推定することができるという点だ。

この最尤法では時刻0のときのyが初期値をして与えられることが一般的となっている。本来はその時点のyも確率分布を仮定してそれも含めた尤度を算出するのがよりよい方法だが、計算が複雑になってしまうことと、標本数Tが大きければ初期値の影響はかなり小さくなることが知られているため、多くの場合は与えられている。これを条件付き最尤法と呼ぶらしい。

この節では最後になるが、OLSと同様にARMA過程における最尤推定量の性質もまとめてある。

(1) 最尤推定量は一致推定量である。
(2) 最尤推定量を基準化したものは漸近的に正規分布に従う。
(3) 最尤推定量は一致推定量の中で漸近的に最小の分散共分散行列を持つ。

3については式でも確認したとおり、最終的にやっていることはOLSと同じになっているため、OLSと同じ性質を持つ。

ARMAモデルの選択

これまでMA過程、AR過程、ARMA過程の特性や推定方法を見てきたが、実際に標本からどの過程でモデル化すればよいかの選択する方法がいくつかある。当著書では標本の自己相関関数、偏自己相関関数から判別する方法と、情報量規準によって判別する方法が紹介されている。近年主流なのは後者の情報量規準で判別する方法だが、場合によっては前者のほうが手間を抑えることができるかもしれない。

モデル候補の選択

MA過程、AR過程、ARMA過程のどれをモデルの候補として使うか選択する際には以下の順番で標本の自己相関関数、偏自己相関関数を確認する。(すべて確認する必要はなく、前項を満たさない場合に次の項を確認していく)

  1. q + 1次以降の標本自己相関関数がすべて 0 になっている

  2. q + 1次以降の標本偏自己相関関数がすべて 0 になっている

まず1に関しては単純で、AR, ARMA過程では q + 1次以降の自己相関関数は 指数関数的に減衰はしていくものの、いきなり 0 にはならないためMA過程で問題ない。

次に2に関してだが、MA過程でないとなった場合に、AR過程とARMA過程を標本自己相関関数で判断することは難しいため、ARMA過程の”MA過程は∞次のAR過程で書き直すことができる”という反転可能性を利用する。

偏自己相関関数という、$${ y_t, y_{t-k} }$$のk次の自己相関関数を見る際に$${ y_{t-1}, \dots, y_{t-k+1} }$$の影響を取り除いたものが存在する。これは解釈としては、$${ y_t, y_{t-k} }$$の直接的な相関を見るものである。これが、q次のAR過程では q + 1次以降に 0 になるという特性があるが、ARMA過程の場合はMA過程の部分が∞次のAR過程に書き直すことができるため、q + 1次以降の偏自己相関関数は減衰はするが急に 0 にはならない。

そのため、モデルの候補としてはMA過程、AR過程、ARMA過程の順に検討していくことになると思う。

情報量規準

上記で自己相関関数と偏自己相関関数によってモデルの候補を選択したが、情報量規準で定量的に比較してモデルを選択することもできる。

情報量規準は最尤推定量をもとにモデルを選択する方法で、以下の式で表される指標を用いる。$${ L(\hat\theta) }$$は最尤法の際の最大となる対数尤度で、$${T}$$はモデル選択に用いる標本数、$${p(T)}$$はTの何かしらの関数、$${k}$$は推定したパラメータの数となる。

$$
IC = -2 L(\hat\theta) + p(T)k
$$

上記の情報量規準は第一項がおもにモデルの当てはまりの良さを表し、第二項がモデルの複雑さに対するペナルティの項となる。第二項はモデルを複雑にして過剰に標本に適合させることによって精度を上げるのを防ぐ。

この情報量規準はペナルティの項の自由度が高いが、よく用いられるのは以下の2つのパターンとなる。

1つ目は赤池情報量規準(AIC)で、これはいろいろな統計モデルでよく用いられる有名な情報量規準となる。AICは以下の式で表せられ、ペナルティはパラメータ数のみとシンプルなものになっている。

$$
AIC = -2 L(\hat\theta) + 2k
$$

2つ目はSchwarz情報量規準(SIC)、もしくは、ベイズ情報量規準(BIC)と呼ばれるもので、標本数の対数によってペナルティをかけている(標本数が少ないとスコアも少なくなる)。標本数に大きくさがあるような場合などに用いると効果があるかもしれない。SIC(BIC)は標本数の対数とパラメータ数の乗算になっているため、実データの多くの場合ではAICと比べてパラメータの少ないモデルが選択されることが多い。

$$
SIC = -2 L(\hat\theta) + \log{(T)} k
$$

ちなみに、AICとSIC(BIC)では一致性の観点で異なるらしい。
AICは真のモデルがp次のAR過程であるとすると、標本数Tが大きくなったとしてもモデルの次数を歌唱に評価することはないが、課題に評価する可能性が 0 にはならない。一方で,BICは標本数Tが限りなく大きくなると、真の次数pと推定した次数が一致する確率が 1 になるため一致性を持つ。

ただ、上記は「そういう特性が一般に知られている」とされているため、導出などは分からなかった…今度気が向いたら調べてみようと思う。

モデルの診断

モデルを選択した後に、そのモデルによって計算される誤差項$${ \hat\varepsilon_t }$$がホワイトノイズとなっていることが期待される。もしホワイトノイズであるのならほとんど自己相関がないはずなので、以前の記事で書いたかばん検定などを行って k次 までの自己相関がないことを確認することができる。

(p, q)次のARMA過程の場合は検定には自由度mのカイ二乗分布$${ \chi^2 (m) }$$ではなく、自由度をm-p-qにしたカイ二乗分布$${ \chi^2 (m-p-q) }$$の95%分位点とかばん統計量$${ Q(m) }$$を比較する。


この記事が気に入ったらサポートをしてみませんか?