ファイナンス機械学習:ラベリング 固定時間ホライズン法
金融分野のほとんど全ての機械学習の論文では、この固定時間ホライズン法を用いて観測データをラベリングしている。
インデックス$${t=1,\dots T}$$を持つ$${I}$$行の特徴量行列$${\{X_i\},i=1,\dots I ,(I \le T)}$$が得られている。
この$${\{X_i\}}$$に、定数閾値$${\tau}$$を用いて以下のように、$${y_i \in \{-1, 0, 1\}}$$のラベル付けをする。
$${\displaystyle{y_i = \begin{cases}-1 & (r_{t_{i,0},t_{i,0}+h}\le -\tau)\\0 & (| r_{t_{i,0},t_{i,0}+h}| = 0)\\-1 & (r_{t_{i,0},t_{i,0}+h}\gt\tau)\end{cases}}}$$
ここで、$${X_i}$$が発生した直後のバーのインデックスを$${t_{i,0}}$$とし、発生してから$${h}$$バーが経過したインデックスが$${t_{i,0}+h}$$、$${r_{t_{i,0},t_{i,0}+h}}$$は、この期間内での価格のリターン、
$${\displaystyle{ r_{t_{i,0},t_{i,0}+h} =\frac{p_{t_{i,0}+h}-p_{t_{i,0}}}{p_{t_{i,0}}} }}$$
である。
論文ではほとんどの場合が、タイムバーが使われているので、一般に$${h}$$は、固定時間ホライズンを意味する。
ただし、元々がタイムバーは、取引が活発な時間帯と閑散な時間帯を統計的に同列に見ているので、より良い統計的性質を示さない。動的ボラティリティを閾値に使う、または、タイムバーでなくドルバーか出来高バーを使う方法もあるが、実際の投資戦略に不可欠な、利益確定と損切り制限を無視していることには変わりない。