python de TPS Sep
記事書きながらのコーディングだと、日本語と英語入力の切り替えがめんどくさいの。
今回の流れは、
1、pythonのdefを使いこなせるようになるために、使ってみる。
2、いろんなグラフを一発で出すやつに挑戦する。
3、kaggleの他の人のをみて、パクれそうなのを真似する。
4、コロナデータ2020年の解釈について、考えてみる
5、交差検証方法について考える。時系列だし。
3から行くか。
これが面白そう。
.unique()でユニークな値が見られるが、
.nunique()でユニークな値の種数が見れる。
今回は時系列なので、
pd.to_datetimeで変換した後、min maxdで最初と最後の日付がわかる。
median meanなんかも一応できる。
グラフにしてみる。年末にめっちゃ売れてる。
本屋別で見た場合、kaggelemartが3倍くらいでかいものの、同じような動きをしている。周期性は2020年に乱れる。
本別にで見た場合、kids以外は一年単位での周期性が見られる。が2020年に大きく乱れている。
国別で見た場合、2020年以前は国間で差があったのに、2020年はほぼ同じような売り上げになっている。
相関も高い。
一番驚いたのがこちら
日毎の本別の売り上げパーセンテージに、規則性がある。
しかもこれは2020年になっても継続している。これは使えそうだ。
続く・・・
この記事が気に入ったらサポートをしてみませんか?