アセットマネージャーのためのファイナンス機械学習:Optimal Number Clusters

分割的アルゴリズムのk-means法は、予めクラスタ数を指定する必要があり、また初期化がランダムに行われることが欠点である。これを解消するために、k-means法に改良を加えたのが、シルエット係数を用いて最適なクラスタ数を見つけるアルゴリズム、Optimal Number Clusters(ONC)である。
 ここでは相関行列内のクラスタの数を見つけているが、一般の観測行列にも使える。

 ONCを適用する観測行列$${X}$$を作成する。相関行列$${\bf{\rho}}$$で特徴づけられている多変量正規分布に従う$${N}$$個の変数がある。全ての変数に共通する強い成分がある場合、detoningによってこの成分を抜いておくべきである。この相関行列のクラスタリングを行うにあたり、観測行列$${X}$$を$${X_{ij}=\displaystyle{\sqrt{\frac{1}{2}(1-\rho_{ij})}}}$$として、この$${X}$$から距離行列を作成する。
また、この観測行列の定義によって、$${\Delta X_{ij}=-\displaystyle{\frac{1}{2\sqrt{2}}\frac{1}{\sqrt{1-\rho}}\Delta \rho}}$$となることから、$${\rho}$$が$${0.1}$$から$${0.2}$$の変化率よりも$${0.9}$$から$${1.0}$$での変化率のほうが大きいと判断される。
 また、二つの変数の距離が$${\rho_{ij}}$$だけでなく、他の相関係数値も入ることから、維持する情報量が多くなってより強固になっている。
 $${X}$$がサイズの大きい行列の場合、PCAによって次元削減を行う。閾値$${\lambda_{+}}$$よりも大きい固有値の数が、新しい次元数となる。

この記事が気に入ったらサポートをしてみませんか?