最初の機械学習モデル作り (1)

まずは特徴量抽出の前のステップとして、特徴量の元となるデータをどれをどこまで使うかを考えてみる。引き続き、ultraistterさんのTwitterをめちゃくちゃ参考にさせてもらいます。 m(_ _)m

これを鵜呑みにして、まずは約定履歴のみ、5分程度の情報を使うという形で考えてみようか。

5分について

まず、「5分しか見なくていいのか!」という印象を最初は持ったが、よくよく考えると、5分というのは結構長いですね。当たり前なんだけど、1日って1440分しかなくて、重複しない5分の区間は288個しかない。重複して作ればもっと作れるんだけど、重複したサンプルで水増ししたところで本質的な情報量はどんなもんだろうか。これは、学習データはもっと結構長期間必要かもしれない……。

これを見ると、2週間分を使ってらっしゃるのかな?1日分ぐらいで行けるかとなんとなく思ってたけど、甘かったですね。

とりあえず適当にrolling windowを作ってみるか

この感じだと、重複する感じでデータ点を作ってそうです。僕もそういう感じでやってみます。

初めてなのに張り切りすぎな気もしますが、僕もvolume clockでやってみます。

5分ぐらいの間に何が起きてるんだろう?

適当にvolumeの閾値を探した。4分ぐらいになっちゃったけどまーこのぐらいでいいかな。4分の間には5000件ぐらい約定が入ってるらしい。多いな。

                    duration        n_execs
count                  100000  100000.000000
mean   0 days 00:04:03.603638    5354.341190
std    0 days 00:01:30.659351     929.493499
min           0 days 00:00:00       1.000000
25%    0 days 00:02:45.413388    4989.000000
50%    0 days 00:04:05.390796    5579.000000
75%    0 days 00:05:12.768240    5950.000000
max    0 days 00:07:03.553073    6515.000000

さて、5000件ぐらいの約定をどうやってエンコードしたもんですかね……。

……と言いつつ、特徴量はとりあえず平均と分散ぐらいの軽いの最低限を出すだけ出すことにして、ラベル作りの方を進めて、学習が回せる状態を作りますかね。そうしてからじゃないと結局特徴量とか作っても評価できないですし。



この記事が気に入ったらサポートをしてみませんか?