既存戦略調査 (3) ultraistterさん続き

2020年3月23日 23:16

bot、以前は遅延が検出されたときすでに複数のワーカーが注文を出してて全員死滅してたけど、最近は注文出してから板乗り判定出るまでをロックしてて、ロック取れなければエントリキャンセルしてるのでひとりしか死ななくて遅延でも安心感がある。ただ微妙に遅延してるときに内部で余計に遅延しまう。
— id:ultraist (@ultraistter) June 19, 2018

実用的な遅延対策の実装法。

うちのbotも片方にしか指値出さないというか、この瞬間Lすれば勝てるといったことをトレード単位で検出して動くのが複数同時に動いてるだけ（実際にはロングとショート同時には出来ないのでおかしなことになってる）。イベント検出型。
— id:ultraist (@ultraistter) June 22, 2018

ask, bid両方必ず出すタイプではない。

UKIさんチャンジbotの取引手法は、自分のポジションや利確損切りタイミングについて考えなくてよくて、"5秒ごと注文が発行される環境"で、注文が出される方向を制御する関数を改善すればいいだけなので機械学習向きだと思う。
— id:ultraist (@ultraistter) June 22, 2018

Note更新しました。
今回のチャレンジ、タネ明かししてみると何の変哲もない、至極当然の考え方だと思います。掲載した内容に関する質問には対応できませんのでご容赦下さい。

2週間で利回り4000%超を達成したトレーディングbot構築の考え方｜UKI @blog_uki｜note（ノート） https://t.co/JzE3uCqulF
— UKI (@blog_uki) June 22, 2018

UKIさんのこの記事について、機械学習に向いてるとのこと。

うちのbotは、勝率72%、PF0.85くらいで損大利小だけど期待値はプラスなのと、一日2000回はトレードしていてそれくらいこなすと大数の法則が効くので、日次マイナスになることはまずない（儲かるとは言っていない）。
— id:ultraist (@ultraistter) June 6, 2018

強化学習botついに投入

先週から強化学習botに切り替えてて、昨日からうまくいくようになったので今月少しはこいつをいじりたい。
— id:ultraist (@ultraistter) September 1, 2018

前に実環境でダメだったの、1度しか約定できないはずの出来高をシミュレーション上で何度も取れてたから売買頻度を上げるほど儲かることになってた。例えばある指値が30秒以内に約定するか5秒ごとに独立してチェックすると全ての時間で刺さるんだけど、実際の出来高的に1回しか刺さらないとか。
— id:ultraist (@ultraistter) September 1, 2018

強化学習botは、先月強化学習を"完全に理解した"ので自己満足度の高いものになってるけど、相変わらずあまり儲かっていない。シミュレーションと合わないところが多いので、注文が出るまで遅延とリアルタイムAPIの配信タイミング（メッセージのまとまりかた)のデータを取って現実に合わせるか。
— id:ultraist (@ultraistter) September 28, 2018

LスキャのみのエージェントとSスキャのみのエージェントを個別に学習しているのだけど、双方が「買え」「売れ」と言ってくるタイミングがあってこのときの選び方をランダムにすればポジが大きくなりにくいかと思いきや方向感ない注文が多すぎてノーポジに向かってしまう（なにも分かってない）っぽい
— id:ultraist (@ultraistter) October 3, 2018

LとSで個別に学習している。

機械学習を使うと将来の価格予測になりがちだけど、何らか行動しないと利益は得られないので、予め可能な行動を定義しておいて、ある時点のマーケットの特徴量から各行動を取ったときの期待収益を予測(/行動を評価)して一番よい行動を取るようにするとend-to-endにできる（なにもしないが0だから0以上
— id:ultraist (@ultraistter) October 17, 2018

機械学習の使い方について。「ファイナンス機械学習」に書いてあった考え方にも少し近い印象。

おなじやんけと思われたかもしれないけど、行動(ロング,ショート,ノーポジ)と行動に使うパラメータ(INの指値位置、利確幅、損切り幅、各種タイムアウト)の組み合わせをMultiDiscrete 1発で出力できる。
— id:ultraist (@ultraistter) October 17, 2018

MultiDiscreteというのはOpenAI Gymのクラスのようだ。行動に関するかなり直接的な出力をさせて、強化学習をしているようだ。

学習は常に動いてて4時間毎くらいで更新されてるので、構造変化というのが少しづつ起こるならついていけるはず。短期間で入力のスケールが変わる問題が難しい。1時間前と平均が5倍違うとか。今は正規化のパラメータをインクリメンタルな方法で更新していってるけどいいのか分からない(短期高頻度の話
— id:ultraist (@ultraistter) October 18, 2018

再学習について。この時期にはもう4時間ごとになっていた。

sigfinいくつかみたけど、個人的には「高頻度注文情報の符号化と深層学習による短期株価予測」がよかったというか、やっていることがbotとだいだい同じで、入力の正規化どうするかずっと悩んでたり、分類問題にしてたりで、単に同意したいところが多かった。
— id:ultraist (@ultraistter) October 17, 2018

必読っぽい。TODO。

バックテストでの最適化でも統計機械学習でも全部過去データを参考にしているしデータ拡大で価格軸を現在の対象にスケーリングしたり時間軸をランダムに縮めたりは考えられるからメモリベースかモデルベースかの違いしかないと思うけどな。大雑把すぎか。
— id:ultraist (@ultraistter) November 21, 2018

学習時のタイムスケールについて。工夫のしがいがありそうなポイント。

どこかで書いてますが、昔のbotはルール固定で、そのルールの閾値などとトレードのパラメータ（利確/損切り幅など）をhyperoptで探索してました。今は全部まとめて強化学習ですが状態は持っていないので行動とパラメータ(離散値)の組み合わせをそれぞれの多クラス分類にしてセットを選択する感じです。
— id:ultraist (@ultraistter) November 29, 2018

gymの環境でStable BaselinesのPPO2でやっています。状態を持っていないというのは、注文を出す時点で利確損切りなどの条件をすべて決めていて動かさないということです（これがいいわけではなく手抜き）。gym上では強いので実環境とシミュレーションの差を埋めるのが課題という感じです
— id:ultraist (@ultraistter) November 29, 2018

ついにアルゴリズムへの言及が。PPO2を使っているらしい。

強化学習だけど深層ではない(2層MLP)。自身の状態も持っていない(入出きっちり合わせる単発トレード並走)。入力はbFの約定履歴のみ。5分より前の情報は見ない。とてもシンプルなので800年間勝手に生きて欲しい。
— id:ultraist (@ultraistter) December 31, 2018

ここでも重要な情報が。

・NNのアーキテクチャがシンプルな2層MLP
・入力は約定履歴のみ
・入力も5分前からの情報のみ

高頻度系では推論の遅い機械学習モデルを使うのは難しそうなので、NNアーキテクチャについてはそんなものかなと思っていました。一方、入力は信じられないぐらいシンプルですね。でも、確かに板情報を見ないほうが見せ板などに惑わされずロバストかもしれないです。

自分は値幅より時間を考えてる。a秒前に通った価格でb秒以内にもう一度が約定が発生するか、みたいな。
— id:ultraist (@ultraistter) January 1, 2019

ちょうどその辺の1つのヒントになりそうな話。

スプレッドは数秒で簡単に動く範囲と考えれば、best_ask - best_bid以外のもう少しソフトな基準も使えると思う。すごく単純には (n秒間高値-n秒間安値)*1以下の適当な係数とか。
— id:ultraist (@ultraistter) January 15, 2019

あまり検証してない話だけど、数日前に損失関数をMSEからHuber lossに変えてから、苦手そうな動き（1分足5個以上全部同じ方向になるやつ）でも損せず微益くらいで耐えるようになった気がする。MSEだと外れ値(急変時の報酬)の影響がよくないと思ったので変えた。
— id:ultraist (@ultraistter) February 16, 2019

ん？ロス関数について。PPO2による強化学習の話と、回帰のロス関数の話は、どう繋がってくるんだろ？マルチタスク学習になってるのかな？

botのロット、先月は[0.3,0.6,1.2]枚からの選択で1.2枚が一番多かったので、それくらいは行けると思うけど、予測が当たりやすくなるタイミングだけ注文出すので頻度は落ちる。シュミレーションだと頻度落としてでも大きい方が儲かるけど遅延が不正確なのと板見て割り込みされない恩恵が大きそう。
— id:ultraist (@ultraistter) March 7, 2019

botに離散的なアクションが選択肢として与えられている具体的な様子がわかる。

標準偏差基準で出しておくのは、現在値のzscoreが高くなった瞬間に逆張り指値が刺さる先出しだけど、逆に現在値のzscoreが高なったのを確認してから往復狙って爆速で後出しすると順張りもできるので自分で方向決めれる（速度は不利）。先出し両サイドの指値の大きさでも方向決めれるのかもしれないけど
— id:ultraist (@ultraistter) March 8, 2019

これはちょっと今の知識・経験だと仰ってることが理解できず。重要そうなのでまた戻ってきたい (TODO: 解読できるようになったら解読する)。

自分のポジション考慮していない。リスクを考えると見ないといけない気はするけど、今のやり方だと問題が複雑になりすぎる。今は両サイド同サイズの約定をペアで1トレードで考えてて、そうすると累計損益は各トレードの損益を足しただけだから、自分のポジション関係なくねということで見てない。
— id:ultraist (@ultraistter) March 10, 2019

L, S独立なので在庫管理は無い。

最近遅延時間を特徴量に入れてるおかげか特に食らってないしちょっとは増えてるので放置でいい気がする。ただ遅延が起こるスケジュール分かってると狙われそうでアレ。
— id:ultraist (@ultraistter) April 19, 2019

遅延時間を特徴量に入れているらしい。Realtime APIの受信ならまだしも、発注が板に乗るまでの遅延を本当は使いたいはずで、しかし発注をずっとしてないとその情報は得られないのではなかろうか。なので、遅延時間のデータを安定して取るのは簡単じゃなさそうだけど、どうやってるんだろう？ (TODO: 調査する)

脳内でVolume軸の妥当性がやばかったので全部volume clockに変えてみたけど、何かが変わった気しないし、200枚成行でぶっ壊れる不安が残った。
— id:ultraist (@ultraistter) October 6, 2019

これはwindowの切り方の話ですかね？あまり変わらないらしい。

実装について

botはPythonで計算が遅い部分はBoost.PythonでC++で書いてるけど、通信やタスク処理周り速くしたいなら書きやすい言語で書いたほうがいい気はする。ただ、そこって設計が重要だと思うからこだわりたい人はそれが実現しやすい言語で書いてる印象。
— id:ultraist (@ultraistter) September 3, 2018

速度重視のbotの場合は最終的に全部C++かRustで書こうかと思っていたが、このぐらいがちょうど良さそうな気もする。どうせネットワークのレイテンシもそれなりに大きいだろうし。

websocketのホストがAzure東日本みたいなので、近いところに置けば速くなるかと思って、Azure Standard F4で計測してみたけど変わらなかった。
— id:ultraist (@ultraistter) September 29, 2018

そのうち調べようと思ってたけど、少なくともこの頃はAzureらしい。C#だからそうかなとは思ってた。

ポジ管理、約定履歴を注文ID=合計約定sizeのkvs(memcached)に更新している奴がいて、トレード毎のワーカーはkvsだけ参照しているのと、出した注文IDは全部持っておいて最後にその合計が一定時間0になるを確認してるので特に気になってない（対当売買で不整合あるので30分に1回くらいは全リセットしてる
— id:ultraist (@ultraistter) January 22, 2019

ポジ管理について

前のbotはIFDOCOだったけど去年の2月3月に特殊注文の遅延がヤバすぎだったので自作IFDOCOに書き換えた。
— id:ultraist (@ultraistter) January 25, 2019

自作IFDOCOについて

一番遅いのが一定期間(時間窓, 期間内のデータ件数は時刻毎に異なる)のrolling mean/stdを計算するところで、meanはO(1)で計算できるけど、stdが計算できそうで窓が可変なところが自信なくてできてない。テストはできるから試してればできる気はするけど..
— id:ultraist (@ultraistter) February 3, 2019

どんな風にデータを作ってるかが少し透けて見える発言。上にも有るように、5分のwindowを使っているので、それをsliding windowとして動かして計算をしたいようだ。重要なこととして、当たり前だけど、mean, stdを特徴量として使っているということもわかる。

ちなみに、stdは二乗のmeanからmeanの二乗を引いてsqrtとるだけなので、stdも同じようにO(1)で計算できると思います。（教えてあげたほうがいいですかね……？こんだけ情報貰ってる立場なので、少しでも役に立てそうだったら嬉しいですが、大した話じゃないっていう……）

数日前から約定配信を貯めてるので2週間後から使える(長い)。複数取引所を見る場合に取引所ごとの配信遅延の違いなどで届く順番が前後するのがオフラインで再現できない。約定時間でソートしていると機械学習が幻のアルファを拾う厄介なやつになりそうなので、重い腰上げた。今は平均遅延分ズラしてる
— id:ultraist (@ultraistter) August 18, 2019

僕もやらなきゃなと思ってました。受信したメッセージだけじゃなく、受信した時間を入れないと、使えないですよね。

テイカーbot

昨日のBinanceが停止している間だけやたらテイカーbotの調子がよかった気が🤐 ちょうどきれいなV字だっただけかもしれないけど
— id:ultraist (@ultraistter) August 16, 2019

テイカーbot、負けはしないけど額は取れてない。先月後半から動いてる1分後順張り報酬予測で指値テイクしてるだけのやつ。 pic.twitter.com/Ll6yaQwI3Z
— id:ultraist (@ultraistter) August 18, 2019

昨日のBinanceが停止している間だけやたらテイカーbotの調子がよかった気が🤐 ちょうどきれいなV字だっただけかもしれないけど
— id:ultraist (@ultraistter) August 16, 2019

メイカーを作られてると思ってたけど、テイカーbotというのも作っているらしい。テイカーbotも強化学習なのかな？わかりませんが、確かに、同じ枠組みで学習させられそうだし、テイカーのほうが指値を学習しなくて良い分、楽に始められるかもしれないですね。

この記事が気に入ったらサポートをしてみませんか？

既存戦略調査 (3) ultraistterさん 続き

強化学習botついに投入

実装について

テイカーbot

既存戦略調査 (3) ultraistterさん続き