運用日記:2020年10月10日~2020年10月17日 特徴量エンジニアリング方法論
こんばんは。
今回から、今までとちょっと報告の体制を変更させていただきました。
週一の報告にしますと、本業後に論文読んで解説したりも出来るので、割とそちらの方が需要もあったりするのかなって最近思いました。
ただ、実弾運用しているので、しっかり復習しないと普通にやられますのも事実ですので、日記の方も頑張りたいと思います(笑)
今回は運用報告で気付いたこと、今後のモデル作成の方針についてまとめていきたいと思います。
運用報告
予測精度:51.8%
損益:-42137円
残高:385774円→340588円
最大ドローダウン:52987円
総評
ここ一週間は割と極端な動きが多かった印象です。今までのトレンドが発生しているわけでもなく、ジャンプが多かったです。やはり、弊ボットはジャンプに弱く、その原因は、保有期間が長い(30分)ことと逆張りだからです。解決策として、ボラティリティが0.2%~0.45%のときは決済するようにはしたのですが、ボラティリティがそのレベルに達すると損切するため、割とじわじわ損切したなという印象です。
特徴量エンジニアリング
ここで今後の投資戦略の開発の方法論について書きたいと思います。
今までは、色々な特徴量を見つけてはアンサンブルモデルに突っ込んでという風にやっておりましたが、これでは特徴量が増えた時にモデルを管理出来なくなるという問題が生じました。
ここで、割と正直に思ったことは、強い特徴量一個見つかれば勝てるということです。
大量に説明変数を作るのは問題ないと思いますが、それをモデルに学習させることは、完全にブラックボックス化するので、それ自体がリスクになり得ます。
なので、理想は、大量に特徴量を生成して、一つずつ特徴量を調査して、良いものを見る方法です。
ここで、IC(情報係数)を見て特徴量を一気に探す方法があります。
ICとは、説明変数と将来の価格リターンのピアソンの相関係数です。このピアソンの相関係数は非常に有益でして、最小二乗法(OLS)による単回帰モデルの決定係数の平方根でもあります。
どういうことかと言いますと、ICが高いということは決定係数も高いということです。そして、決定係数が高いということは、線形モデルに対してバラつきが少ないということなので、線形モデルで将来リターンを説明しやすいということです。
なので、非常に基礎的なことなのですが、色々寄り道して線形モデルからまた始めたいと思います(笑)
アンサンブルモデルは最後に場合分けを自動化する等の目的で使用する程度で、モデルに使う材料の質を上げないと良い料理は出来ません。
一見美味しそうなスープでも、中身が危なかったら、食後に腹を下す可能性があると思いますので、これがリスクです(笑)
まとめますと、私が考えた特徴量エンジニアリングフレームワークは次の通りです。
・特徴量を大量生成する
→ICを見てランキングを見る
→上位の説明変数を散布図等で見る
→良さそうなら、まずはその説明変数だけでバックテストする
→こういう説明変数だけをかき集めて最後にアンサンブルモデルに入れて、最高の料理を作る
明日は特徴量エンジニアリングを頑張ってモデルを改善したいと思います(*'ω'*)
では、また来週会いましょう(*'ω'*)
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?