見出し画像

データサイエンティストが本気で株価予測AIを作ってみた




まとめ

記事の大まかな内容は以下になります。

  • 内容:個別企業の年度末決算を終えた後1年間の株価リターンを予測するモデルを作成しており、そのモデルの紹介をしています。

  • モデル性能:バックテストのシミュレーションでは、モデルが選択した株式が1年後に値上がりしている割合は約8割でした。また、原資産に対する年間リターンは平均25%程度でした。日経平均やS&P500と比べても優れた結果となっています。

  • 解釈:「何故モデルの予測確率が高くなっているのか」をChatGPTにより分かりやすく解釈することもできます。

  • 注意点:あくまでシミュレーションの結果のため、勝率8割やリターン25%という結果を保証するものではありません。モデルの結果を参考にしていただく際には自身での定性的な判断も加味することをお勧めします。

  • 今後について:予測結果を定期的に投稿する予定ですので、フォローや購読をしていただけますと幸いです

概要

本記事では、上場企業の過去10年の財務データを基に作成した株価予測モデルをご紹介します。また、記事の中ではデータ分析に関する専門用語を使ってモデルの紹介をしているため、データ分析についてある程度知識があると読みやすいかと思います。データ分析の知識に不安がある方も、分からない用語について検索しながら読んでもらえれば理解は難しくないかと思います。もしモデルの予測を利用してみたいと思われる場合、予測結果を定期的に投稿する予定ですので、ぜひフォローや購読などしていただけますと幸いです。

背景

FX取引などの短期取引は、一人が儲けて他の人が損をするという「ゼロサムゲーム」という考え方に近いです。しかし、長期的に株を持つことは、会社や経済が成長するにつれて、多くの投資家が一緒に儲けることができる「みんなが勝ち得るゲーム」に似ています。特に、一つ一つの会社を長く見守る投資は、会社が成長すると共に株価が上がり、投資家全体に利益をもたらすことが多いです。このような視点から、個別株の予測モデルを皆さんと共有することで、私含め皆さんの資産運用に役立てるかなと思い、分析結果を公開することに至りました。

モデル概要


分析設計の概要

目的変数(予測対象)

各個別株について年度末決算が発表された翌日から1年後までのリターンが「5%以上か否か」の2値分類を予測するモデルを構築しています。

説明変数(入力データ)

約3500の上場企業の財務データを10年分集め、以下表に記載の指標を代表とする20個の財務指標を作成し、説明変数(入力データ)として使っています。かなりの試行錯誤を繰り返しており、独自で作成した財務指標も含めております。

採用している説明変数の一部

モデルの構築結果(パフォーマンス)


テストデータにおけるAUC

AUCが0.625であることは、金融市場における不確実性が高い中で、ある程度の予測力を持っていることを示しています。金融市場における完璧な予測は不可能に近いため、このAUCの値は実際にはかなり良い結果と言えます。これにより、モデルがランダムな予測よりも優れた選択を提供していると判断できます。

テストデータにおける閾値別の正答率・適合率(Precision)・再現率(Recall)

閾値を80%に設定するとPrecisionが81.7%であるため、テストデータにおいて「予測確率80%以上の銘柄を購入すれば、81.7%の確率で1年後リターンが5%以上になる」ことを示唆しています。また、閾値80%としたときのRecallが3.3%であるため、「実際に1年後リターンが5%以上となる銘柄のうち、予測確率80%以上となる銘柄は3.3%のみ」であることを示唆しています。つまり、モデルはほんの一部の優良銘柄しか捉えられていないことを意味します。一方で、投資可能な上場銘柄は4000近く存在しているため、Recallが3.3%でも年間で50以上の銘柄が予測確率80%以上となります。つまり、100銘柄以上を購入するような戦略でなければ、このRecallでも十分と言えるでしょう。

各月ごとに、予測確率が高い上位10銘柄を購入した時の1年後リターンの平均

各月における全銘柄の1年後リターンの平均(実線)と、各月に予測確率上位10銘柄を購入したときの1年後リターン平均(青棒)を比べると、多くの月においてモデルの結果が全銘柄平均のリターンを超過しているものの、相関性が高く見受けられ、かなり市場のトレンドに依存するモデルとなっていることが分かります。

予測確率80%以上の銘柄を毎月最大10銘柄まで購入したときの1年後リターンの平均

一方で、予想確率が80%以上だった銘柄に絞ることで全体を通しての平均リターンが14.8%から25%に改善しており、市場のトレンドが悪い場合により慎重な姿勢を取ることができるようになっています。またこの結果は、実際にこの通りに運用した場合に、総資産の1年後のリターンが25%となることを示唆しています。日経平均の過去5年間における年間の平均リターンは10%程度、S&P500でも16%程度のため、一般的な投資信託やETFが選択している銘柄と比べても優秀なモデルになっているかなと思います。

結果の解釈と使い方

ここでは、2023年6月末に期末決算があった企業についての8月上旬~中旬時点におけるモデルの分析結果を紹介し、モデルの分析結果がどのように銘柄選択の参考にできるかを解説していきます。

予測確率の確認

分析時点で6月末の期末決算が発表されていた23企業について1年後リターンの騰落予測を実施しました。以下では、予測確率が75%以上であった3銘柄について詳しくみていきます。

予測確率上位10銘柄

上記の表では、予測確率上位10銘柄の予測値をまとめています。今回は、太字にしている上位3銘柄のシンポ、新東、アトムリビンテックの分析結果をより詳しく考察していきます。

売却タイミングの確認

各企業の現在株価からの変動率(横軸)と予測確率(縦軸)の関係性

上記グラフは、現在(8月上旬)時点に購入した後の株価の変動率を横軸で表し、その変動率ごとで予測確率(縦軸)がどのように変わるかを表現したグラフになります。このグラフを確認することで、例えば「予測値が50%を下回るタイミングで株式売却を考えよう」など、ポジション解消のタイミングを考える際の参考とすることができます。また売却タイミングの目安として、予測確率が70%、60%、50%の箇所に赤・青・黒で点線を引いています。

ChatGPTによる解釈

モデルの予測結果やShap値、元データをChatGPTに入力し、予測結果の考察をさせた結果を紹介します。「何故予測が高く出ているのか」を見たい場合は、こちらの解釈を確認していただけたらと思います。

  • シンポ:BPS前年度比が10%以上と高い値を示しており、これは株主資本の前年比増加を意味します。高いBPS成長率は、企業の資産価値が増加していると投資家に捉えられるため、株価リターンのポジティブな予測に寄与していると考えられます。総資産経常利益率が10%以上の値を取っており、企業の収益性が良いことを示しています。前年度からの株価変化率がほぼ変動していないため、過去1年間で株価が安定していたことを示し、これはリスクを避けたい投資家にとって魅力的である可能性があります。

  • 新東: 前年度から株価が下落しているますが、PBRが0.28と低く、株価が純資産に対して割安であることを示しています。これは、株価が本来の価値に比べて低く評価されているという解釈ができ、将来的なリターンの可能性があると判断されているかもしれません。ROEが0.73と高く、企業の効率的な資本利用が予測確率の高さに寄与していると見られます。

  • アトムリビンテック: 前年度からの株価が-24%下落していますが、PBRが0.46という比較的低い値を取っており、これは株価が純資産に対して割安であることを示しています。低いPBRは、株式が過小評価されている可能性があり、投資家が将来的な株価上昇の機会と見ることができます。その他、企業の収益性の変化や経営効率の改善が予測モデルによってポジティブな株価リターンの指標として認識されている可能性があります。これらの要素が合わさって、予測確率の高さに寄与していると考えられます。


※実際の財務諸表の数値などについては、バフェットコードやYahooファイナンスなどを参照していただければと思います(商用利用不可のため転載いたしません)
※同じ財務指標でも、こちらのモデルで使用しているものと他サイトのもので計算方法が異なる可能性があるため、値が一致しないことがあります

実際の結果

紹介した3銘柄について、実際に私がモデルを参考に購入した後の現在までの損益が以下になります。

損益結果

3銘柄についてほぼ同額で投資して、現時点では合計で22.26%の収益となっています。新東については、途中で高騰した時期があり、予測確率が60%付近となる2,096円で出していた指値で売却できたため、60%の利益を確定することができました。現時点では

モデルの注意点

  • 定性判断の必要性:モデルは財務データと株価履歴のみ使用しており、ニュースやIR情報は考慮していません。投資決定には、モデルの予測とあわせて独自の分析が必要です。

  • 分散投資の必要性:バックテストによると、予測確率80%の銘柄は1年後に5%以上のリターンが80%程度の確率で期待されますが、これはシミュレーションの結果に過ぎず、突発的なイベントは予測を覆す可能性があります。リスク分散を意識し、複数銘柄で異なる業界の株に投資することをお勧めします。

免責事項

本ウェブサイトに掲載されている株価予測モデルの結果は、あくまで統計的手法に基づく予測であり、将来の市場動向や株価の実際の動きを保証または約束するものではありません。当モデルの予測結果は情報提供を目的としており、投資勧誘や投資を推奨するものではありません。投資に関する最終的な判断は、ユーザー自身の責任において行われるべきです。
当ウェブサイトのコンテンツや提供される情報は、可能な限り正確かつ最新の情報を提供するよう努めておりますが、その内容を保証するものではありません。また、予測モデルの結果に基づいてユーザーが行ういかなる投資行動も、当ウェブサイトおよび情報提供者は責任を負いかねます。
市場には変動リスクが常に存在し、過去のデータやパフォーマンスは将来の結果を示唆するものではありません。投資には元本を失うリスクが伴いますので、投資判断に際しては独自のリサーチを行うことをお勧めします。
当ウェブサイトを利用することにより生じた直接的または間接的な損害について、当ウェブサイトおよび情報提供者は一切の責任を負いません。ユーザーは、当ウェブサイトの利用によって得られる情報を自己の責任で使用することに同意したものとみなします。

この記事が参加している募集

#お金について考える

37,613件

この記事が気に入ったらサポートをしてみませんか?