ファイナンス機械学習:特徴量の重要度 並列計算とStucking法

並列で、10の証券毎の20の特徴量の需要度を測定した結果と、10の証券のデータをスタックして、一つの結合データセットとして20の特徴量の重要度の測定した結果を比べる。
 この計算も、データ量が増えることから計算機負荷が高く、MDI,MDA,SFIのうち、最も低速で計算機的に重いSFIの実行には、並列化は欠かせない。

MDI

各証券の特徴量の重要度とその単純平均、スタック法で得られた重要度の平均と分散を一緒にしたのが以下の表となった。

MDI

10の証券からの重要度の単純平均とStuck法で得られた重要度の比較を可視化したのが以下の図である。

Average parallel vs. Stuck

MDA

MDA

いくつかの証券で、全ての特徴量が重要でないと出ているが、MDAはアウトオブサンプルで計測されており、理論的には、この証券(0,1,3,4,5,6,8,9)では、アウトオブサンプルで特徴量を並べ替えても結果に変化は起こらなかったと解釈すべきである。
 並列法で得られた各証券の重要度を単純平均したものと、スタックとの比較のグラフは以下のようになった。

MDA

SFI

各特徴量を一つづつ外して、学習を行い、重要度を判定するSFIは、使用メモリも多く、計算も重い。この計測には、並列で64ノードを使用した。

SFI

ここでもMDAと同様に、全ての特徴量がほぼ1である証券が出てくるが、全ての特徴量が等しく重要であるとは、全ての特徴量が等しく重要ではないと同値である。この並列計算法を単純平均したものと、スタックして重要度を測定したものには著しい違いが出た。

SFI

証券毎の重要度を測定し、それをその証券ユニバースの特徴量に換算する場合は、重みをつけ平均化する方が望ましいと言える。

この記事が気に入ったらサポートをしてみませんか?