最初の機械学習モデル作り (1)
まずは特徴量抽出の前のステップとして、特徴量の元となるデータをどれをどこまで使うかを考えてみる。引き続き、ultraistterさんのTwitterをめちゃくちゃ参考にさせてもらいます。 m(_ _)m
これを鵜呑みにして、まずは約定履歴のみ、5分程度の情報を使うという形で考えてみようか。
5分について
まず、「5分しか見なくていいのか!」という印象を最初は持ったが、よくよく考えると、5分というのは結構長いですね。当たり前なんだけど、1日って1440分しかなくて、重複しない5分の区間は288個しかない。重複して作ればもっと作れるんだけど、重複したサンプルで水増ししたところで本質的な情報量はどんなもんだろうか。これは、学習データはもっと結構長期間必要かもしれない……。
これを見ると、2週間分を使ってらっしゃるのかな?1日分ぐらいで行けるかとなんとなく思ってたけど、甘かったですね。
とりあえず適当にrolling windowを作ってみるか
この感じだと、重複する感じでデータ点を作ってそうです。僕もそういう感じでやってみます。
初めてなのに張り切りすぎな気もしますが、僕もvolume clockでやってみます。
5分ぐらいの間に何が起きてるんだろう?
適当にvolumeの閾値を探した。4分ぐらいになっちゃったけどまーこのぐらいでいいかな。4分の間には5000件ぐらい約定が入ってるらしい。多いな。
duration n_execs
count 100000 100000.000000
mean 0 days 00:04:03.603638 5354.341190
std 0 days 00:01:30.659351 929.493499
min 0 days 00:00:00 1.000000
25% 0 days 00:02:45.413388 4989.000000
50% 0 days 00:04:05.390796 5579.000000
75% 0 days 00:05:12.768240 5950.000000
max 0 days 00:07:03.553073 6515.000000
さて、5000件ぐらいの約定をどうやってエンコードしたもんですかね……。
……と言いつつ、特徴量はとりあえず平均と分散ぐらいの軽いの最低限を出すだけ出すことにして、ラベル作りの方を進めて、学習が回せる状態を作りますかね。そうしてからじゃないと結局特徴量とか作っても評価できないですし。
この記事が気に入ったらサポートをしてみませんか?