アセットマネージャーのためのファイナンス機械学習:クラスタリング

 時系列からのイベントサーチや、ポートフォリオの同種の証券間の相対価値を導出するためにクラスタリングが用いられる。
 教師無し学習のクラスタリングの、最適なクラスタ数と構成を見つける方法を扱う。

 特徴量の数$${F}$$、オブジェクトの数$${N}$$のデータ行列$${N\times F}$$から$${N\times N}$$の近接行列を作る。近接度は、相関係数や相互情報量等の類似度、もしくは距離測度の非類似度が使われる。距離測度であることが望ましいが、厳密に距離測度でなくても良い。スケールの違う特徴量が存在すると、大きいものに引っ張られた結果が出るので、全ての入力データは標準化しておく必要がある。

 クラスタリングは、分割的クラスタリングと階層的クラスタリングがあり、階層的クラスタリングは、ボトムアップ型、トップダウン型のどちらも階層木の成長を制限することで、分割型クラスタを導出できる。一方分割的クラスタリングは、最初にクラスタ数を指定するため、ネストされる階層的クラスタリングの導出はできない。
 クラスタリングのアルゴリズムには以下の種類がある。

  • connectivity: 距離的な接続性に基づく

  • centroid: k-means法

  • distribution: 統計的分布を用いる

  • density: DBSCAN 距離だけでなく密度に基づく

  • biclustring: 特徴量と観測値の2次元でクラスタリングを行う

https://quantdare.com/biclustering-time-series/

特徴量の数が観測値の数よりはるかに大きいときは、PCAにより特徴量を減らすか、近接行列を低次元空間に写像することが必要である。

この記事が気に入ったらサポートをしてみませんか?