AI投資のススメ第3回　AIモデル構築における留意点

2018年10月22日 08:47

0.前書き

前回、投資におけるAIの使い所はモデリングではなくサンプリングにあることを述べました。ただし現実の場面ではAI（機械学習）による投資モデルを構築するニーズもあると思います。
今回はAIによる投資モデル構築の留意点を説明し、実際に私が運用しているモデルについて紹介します。

1.Tips-機械学習による株価予測

・クオンツ投資には押さえておくべきノウハウが多数あり、データサイエンティストが予測対象を株価に置き換えても、簡単に良い結果は得られない。

・機械学習の直接的な用途としてリターンへの相関を持つ何らかの指標を探し出すことと、間接的な用途として市場の特性などを具現化することが挙げられる。

・株式市場は過分散であり、ベイズ推定のアルゴリズム（要するにMCMC）など過分散へ対応できる手法が有利となる可能性がある。

・モデリングのパフォーマンス測定に検定やAICは使えず、その唯一の判定基準は「演繹的な整合性」だけである。よって可読性のないモデルは殆どの場合で失敗する。

2.やはり難しいAIによる株価予測

・機械学習の予測精度を高めるためにはスタッキング（複数の機械学習の結果を組み合わせるもの）が使われる。スタッキングにより単一の機械学習の持つ弱点を補うことができる。

・今回構築した機械学習予測モデルでは、3種類の機械学習手法（ロジスティック回帰、Extreme Gradient Boosting、Extra Trees）をスタッキングした。

・今回の検討では機械学習予測モデルでは、アウトオブサンプルの成績で統計的手法に基づく予測モデル（線形モデルの組み合わせ）を上回ることができなかった。

・この結果はAI（機械学習）による株価予測モデル構築の難しさ（不適切さ）を示唆するものと考えている。

3.フィナンシャル・モデリング・チャレンジのパラドックス

・フィナンシャル・モデリング・チャレンジとは、AI（機械学習）を使って投資モデルを作り、そのモデルの精度を競うコンペティションである。

・フィナンシャルデータは画像認識などと比べて遥かに予測が難しく、殆ど同一性能のモデルの中からランダムネスの恩恵を受けることのできた運の良いモデルが上位に入る。

・主催者は上位に入ったモデルの予測性能が、本来備えている真の予測性能なのかランダムネスの産物なのか切り分けることはできない。

・主催者は運用するモデルを選ぶ場合は上位のモデルを選ぶしかないが、それを選ぶと必ずパフォーマンスが劣化する（場合によっては損失を出す）ことになる。これをフィナンシャル・モデリング・チャレンジのパラドックスと呼ぶ。

4.三千万円稼いだAI投資手法を公開する

・2016年2月から2017年9月までのおよそ1年半の運用利回りは50%程度である。この期間中、200万円以上のドローダウンを被ったことがない（資産に対して5%以下）というのも、非常に優れた点と考えている。

・使っているAI（機械学習）手法はLASSO（ラッソ）と呼ばれる手法である。LASSOとは「L1正則化を用いた線形回帰」である。LASSOは過学習を防いて汎化能力を高めるとともに変数選択を行う手法である。

・LASSOは統計的手法と機械学習が上手く融合した、非常に優れた手法だと考えている。

・LASSOを用いた投資モデル構築は2012年頃から論文が見られるようになり、Kaggleのコンペティションでも類似手法の有効性が確認されている。

5.おわりに

なぜ機械学習が投資モデルの構築に不向きであるか、その理由は「過分散」と「不確実性」にあると考えています。
この点から、ニューラルネットのように無理やりモデルのパラメータを同定するような手法は特に不向きであり、確率分布などの統計的な考え方を取り入れた手法でなければならないと考えています。
このことは定量的な証明は難しいのですが、機会があればその定性的な概念について記事化したいと思います。

AI投資のススメ第3回 AIモデル構築における留意点