スクリーンショット_2020-01-21_0

ラグ特徴量で時系列データの精度をあげる

ラグ特徴量

ラグ特徴量とは何か?

ラグ特徴量のラグはタイムラグとかのラグと同じです。今の時間の特徴だけに注目せずに過去の特徴を用いて現在のデータの特徴量を増やす方法です。

過去と明言しましたが、未来のデータを使うケースもたまにあります。

しかし、実際には未来のデータを利用するとリークを起こすことがあり、時系列が重視される予測モデルでは過去のデータのみに限定した方が良さそうだというのが私の見解です。

具体的にはどんなデータのこと?

例えば毎日の飛行機の乗客数を予測したいとします。

一番簡単なラグ特徴量は○日前の乗客数です。前日や前々日のデータを持ってきても問題ありません。けれども「先週の乗客数」や「去年の乗客数」というのも大事になってきそうですよね。過去3日間だけのデータに着目して、毎年のイベントや1週間の周期をデータに取り入れることができます。

他にもここ1週間の乗客数の平均を取得することもできます。例えば毎週日曜日は平日の2倍の乗客数になるとしましょう。それでも1週間分の平均を常に計算しておけば、日曜日が過ぎても次の日曜日が計算されるので、全体的にどのくらい乗客数が増えたり減ったりしているか見ることができます。周期性にとらわれず長期的な傾向をつかむことができます。

こうやって聞いていると、なんとなーくわかるような気がしてきたでしょうか?・・・少しでもわかっていただけたら幸いです。


実際にはどんな風にラグ特徴量を生成するのでしょうか?というのを本ブログの方にまとめました。もし興味が湧いた方はぜひこちらもご覧ください。


この記事が気に入ったらサポートをしてみませんか?