python de TPS Sep

記事書きながらのコーディングだと、日本語と英語入力の切り替えがめんどくさいの。

今回の流れは、
1、pythonのdefを使いこなせるようになるために、使ってみる。
2、いろんなグラフを一発で出すやつに挑戦する。
3、kaggleの他の人のをみて、パクれそうなのを真似する。
4、コロナデータ2020年の解釈について、考えてみる
5、交差検証方法について考える。時系列だし。

3から行くか。
これが面白そう。

.unique()でユニークな値が見られるが、
.nunique()でユニークな値の種数が見れる。

今回は時系列なので、
pd.to_datetimeで変換した後、min maxdで最初と最後の日付がわかる。
median meanなんかも一応できる。

グラフにしてみる。年末にめっちゃ売れてる。

本屋別で見た場合、kaggelemartが3倍くらいでかいものの、同じような動きをしている。周期性は2020年に乱れる。

本別にで見た場合、kids以外は一年単位での周期性が見られる。が2020年に大きく乱れている。

国別で見た場合、2020年以前は国間で差があったのに、2020年はほぼ同じような売り上げになっている。

相関も高い。
一番驚いたのがこちら

日毎の本別の売り上げパーセンテージに、規則性がある。
しかもこれは2020年になっても継続している。これは使えそうだ。

続く・・・

この記事が気に入ったらサポートをしてみませんか?