回帰の予測精度は向上するのか? 説明変数に様々なパラメータを使用してみた

2024年9月8日 19:40

今回は説明変数に様々なパラメータを使用した場合の予測精度を確認します

前回行った回帰に対する検証では、説明変数に恐怖指数(VIX)を使用し、かつ、学習データを標準化すると、予測精度が向上することが確認できました。

詳細は、下記の記事を参照ください。

恐怖指数(VIX)が回帰の予測精度を向上させるなら、他のパラメータはどうなのか気になります。

そこで今回は、説明変数に様々なパラメータを使用し、かつ、学習データを標準化した場合に回帰の予測精度がどうなるかを確認したいと思います。

ちなみに、確認するパラメータは下記となります。

学習データの構成は、下記の通りです。

学習データの構成
- 説明変数は、1日分の日経平均株価 + パラメータ1種類を1セットとし、時系列的に連続する5セット(5日分)とする
- 標準化は、日経平均株価とパラメータを分けて行う
- 目的変数は、説明変数の最終日の翌営業日の日経平均株価とする

今回の検証で使用するAIモデルは、前回と同じく、4層Affine構造とします。

各パラメータを説明変数に使用した場合のAIモデルの評価結果から、実際の日経平均株価と予測値の終値に対するRMSE(Root Mean Squared Error, 二乗平均平方根誤差)を算出した結果を下記に示します。

上記の表において、表頭の意味は次の通りです。

表頭の意味
- RMSE(標): 標準化された状態での各終値に対するRMSE
- RMSE [円]: 標準化された終値を逆標準化した後に算出したRMSEで、単位は円

今回の結果をまとめると、以下の通りです。

今回の結果のまとめ
- 説明変数に恐怖指数(VIX)とS&P500を使用した場合に、回帰の予測精度が高くなった
- 説明変数にTOPIX, EURおよび米10年国債を使用した場合に、回帰の予測精度が低くなった

参考までに、説明変数のパラメータとして、S&P500と米10年国債を使用した場合の学習曲線を以下に示します。

上記のグラフは、説明変数のパラメータとしてS&P500を使用した場合の学習曲線です。

縦軸は、ログスケールです。

VALIDATION ERRORの最小値は、0.001043でした。

上記のグラフは、説明変数のパラメータとして米10年国債を使用した場合の学習曲線です。

縦軸は、ログスケールです。

VALIDATION ERRORの最小値は、0.001455でした。

VALIDATION ERRORは、目的変数である日経平均株価(始値、高値、安値、終値)を対象として算出されます。

このため、終値のみに対するRMSEの大小関係とは若干異なりますが、それなりの相関関係はあるはずです。

今回の検証において、終値に対するRMSEとVALIDATION ERRORの最小値の関係を表にまとめたものを以下に示します。

予想通り、終値に対するRMSEの低い銘柄は、VALIDATION ERRORの最小値も低くなっているのが確認できます。

つまり、VALIDATION ERRORの最小値は、終値に対するRMSEの目安にはなるということです。

今回の検証で、説明変数に恐怖指数(VIX)とS&P500を使用した場合に、回帰の予測精度が高くなることが分かりました。

しかし、終値に対するRMSEは283円程度であり、さらなる予測精度の向上が求められます。

そこで次回は、LSTM構造のAIモデルに対して、説明変数に回帰の予測精度が高かった恐怖指数(VIX)とS&P500を使用した場合にどうなるかを確認したいと思います。

なぜ、LSTM構造のAIモデルかと言うと、LSTMは株価予測に向いているとされているからです。

しかし、これまでAIによる株価予測を行ってきた私の感覚では、LSTMよりも4層Affine構造の方が良い結果となることが多かったです。

そうは言っても、確認しないわけにはいきませんので、やってみることにします。

この記事が気に入ったらサポートをしてみませんか？