[Kaggle] G-Research Crypto Forecastingの上位のSolutionを眺めてみる。


コンペ概要

このコンペティションでは、機械学習を活用して仮想通貨の短期リターンを予測します。2018年以降の高頻度市場データの数百万行のデータセットを使用してモデルを構築する課題です。

下記のようなデータセットが与えられました。

  • timestamp - 1分間のタイムスタンプ

  • Asset_ID - 仮想通貨のID

  • Count - 取引数

  • Open - 始値

  • High - 高値

  • Low -安値

  • Close -終値

  • Volume - ボリューム

  • VWAP - ボリューム加重平均

  • Target - 15分の残差リターン

コンペティションホストはG-Researchです。

2位

サマリー

利用ツール:CPython、Numba、Jupyter、Pandas、LightGBM、Matplotlib、scikit-learn
モデル:LightGBM
アンサンブル:無し
ハイパーパラメーター:number of estimators, number of leaves, the learning rateのみデフォルト値から変更
特徴量エンジニアリング:Feature Importanceを参考にしながら既に良い性能を示している特徴量セットに対して施策を集中したり、変換によって重要度の増加が容易に達成されるようなものに対して特徴量エンジニアリングを実施した。
交差検証:K-fold Cross Validation

2位はNATHANIEL MADDUX氏のソリューションです。

LightGBMのパラメーターのチューニングにはそれほど時間をかけなかったようです。チューニングには時間がかかり、CVの結果からモデルの性能にほとんど影響を与えないことが分かったため、代わりに特徴量エンジニアリングの施策に集中したようです。

3位

サマリー

モデル:LightGBM
アンサンブル:無し
特徴量エンジニアリング:Close(終値)のみを使用。評価期間に依存しない変化率の特徴量を主に生成。詳細はこちら
交差検証:7-fold CV with Embargo

3位はSUGGHI氏のソリューションです。3位の方はノートブックを公開してくれています。

2位のソリューションも3位のソリューションもLightGBMですね。
他コンペティションでもそうですが、上位のソリューションにLightGBMのモデルをよくみます。