見出し画像

時系列データをpython【#1】

時系列データを分析とか予測をしたことがなかったのでやっていきます。「株価をpython」というブログの続きです。
前回までは株価のpythonで扱うためにはどうするかというところを勉強してきました。本当は株価ではなく、時系列データを扱いたかったので、その事前準備をしていました。
事前準備では無料のyfinanceとpandas_datareaderのstooqを使うことで株価のデータを引っ張ってくることができることがわかりました。
今回は、そこから

1.サンプルデータの作成
2.サンプルデータの自己相関・相互相関
3.サンプルデータのDTW
4.オープンデータの追加
5.データの予測

ここらへんのことをやっていこうと思います。工場だとデータ集めが大変ですが、今回も勉強のためのデータ集めは大変でした。ただ、事前準備で株価のデータの取得方法を知ったので、それを使ってサンプルを作成していきます。

方針としては、DTWのあたりも勉強したいので、グルーピングできるように、3種類の分野x5企業=15企業のデータを使うことにします。分野は情報、精密機器、水産にしてみました。同じ分野だときっと似たようなトレンドになるのではないかと思いました(まだわからない)。自分でコードをほぼ書かなくなりましたので、まずはchatGPTに書いてもらいます。

ChatGPTとのやりとり

取得したデータの1つはNaNだったので、1つ除くことになりました。なので最終的には14個になりました。取得した株の銘柄に興味はないのでマスクして、最初の5行を確認します。

headした結果(A-04はNaNだったので除いた)

サブプロットも面倒なので、コードをchatGPTに教えてもらいます。

トレンドをサブプロットで表示するためのコード(ChatGPTの回答より)
ChatGPTと複数回やりとりして最終的に完成した時系列データ

この本の第7章に時系列データのことが記載されているので、これを参考に進めていこうと思います。※アフェリエイトはしていませんが、この本も良書です。著者に敬意をもって読んでいこうと思います。

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?