アセットマネージャーのためのファイナンス機械学習:分割間の距離

データセットの分割を確率変数として扱い、データセットの分割を比較したり、教師無しのクラスタリングアルゴリズムの結果を評価するVIを導入する。
 あるデータセット$${D}$$の分割$${P}$$は互いに重ならない空ではない部分集合の順序のない集合とする。
$${\{D_k\}k=1,\dots,K}$$
$${\|D_k\| \gt 0 \forall k_i}$$
$${D_k \cap D_l = \emptyset, \forall k\ne l}$$
$${\cap^{k}_{k=1}D_k=D}$$

次に、分割$${P}$$の不確実性を定義する。
 任意の要素$${d,d\in D}$$を選ぶ確率を、$${\tilde{p}[d]=\displaystyle{ \frac{1}{\|D\|}}}$$とし、このランダムに選ばれた$${d}$$が$${D_k}$$に入っている確率を、$${\tilde{p}[k]=\displaystyle{ \frac{\|D_k\|}{\|D\|}}}$$とする。$${S=\{1,\dots, K\}}$$の値を取る離散確率変数である$${\tilde{p}[k]}$$の不確実性は、
$${H[p]=-\displaystyle{\Sigma^{K}_{k=1}p[k]\log p[k]}}$$
で、明らかに$${\displaystyle{ \frac{\|D_k\|}{\|D\|}}}$$に依存する。

 もう一つの分割を$${P'}$$、$${P'=\{D'_{k'}\},k'=1,\dots K’}$$として、同様に$${S'=\{1,\dots, K’\}}$$から$${k'}$$の値を取る確率を定義でき、あるランダムに選ばれた要素$${d,d\in D}$$が、$${P}$$の部分集合$${D_k}$$と、$${P'}$$の部分集合$${D_{k'}'}$$に属する同時確率は、
$${p[k,k']=\displaystyle{ \frac{\|D_k \cap D'_{k'} \|}{\|D\|}}}$$
である。
 この結合エントロピーは、
$${H[P,P']=-\displaystyle{\Sigma^{K}_{k=1}\Sigma^{K'}_{k'=1}p[k,k']\log p[k,k']}}$$。
 条件付きエントロピー、$${H[P|P']=H[P,P']-H[P]}$$は、$${P’}$$が与えられた時の$${P}$$の不確実性であることから、$${P}$$から$${P’}$$に分割が変わった時に失われる$${P}$$の情報量、または、逆に$${P’}$$から$${P}$$へと変わった時に得られる$${P’}$$の情報量と解釈される。

相互情報量は、$${I[P|P']=H[P]-H[P|P'] = \displaystyle{\Sigma^{K}_{k=1}\Sigma^{K'}_{k'=1} p[k,k']\log \left[ frac{p[k,k']}{p[k]p[k']} }}$$で、二つの確率変数が共有する情報量を定量化したものであり、正規化によって、相関係数の絶対値を同じ範囲の$${[0,1]}$$の値を取る。
 また、VI[P,P']=H[P|P']+H[P'|P]であり、分割を変えることによって生じる情報量の変化である。これは距離測度であることから、VIを正規化することによって、分割間の距離をアルゴリズムの比較として使うことができる。

 
 
 

この記事が気に入ったらサポートをしてみませんか?