見出し画像

Python de machine learning

4冊の本売り上げを予測する。いいねー。久々だ。
学習データは、約7万行。
6 countries 2 stores 4 books
4years of data
no N/A 

合計値で見てみると、
ベルギーとドイツがうれてて、ポーランドが最下位。
kaggleforkidsが一番売れてて、Recipebookが一番不人気。
kaggleMartのほうが売れている。

idea
売れるタイミングに周期性があるのか。月や曜日
国によって違うのか。祝日などもちがうし。
kids用は夏休みとかに売れる?

・国別、店別、本別の時系列グラフが見たい。

まず、日付データをdatetime型にする。年月ごと、曜日ごとの売れ行きを比べてみる。
array(['Belgium', 'France', 'Germany', 'Italy', 'Poland', 'Spain'], dtype=object)
人口・GDP・
ランキングってのもある。

年・月・曜日・平均・他国売上

ベースラインやってみようプラン
1、データくっつける
2、datetimeに直す。
3、特徴量を作る(年、月、曜日)
4、国ごと、本屋ごと、本ごとに前年売上、前年月平均を特徴量にする。
5、ライトGBMに入れる。
ここまで。

今日の挑戦は、条件にあった場所への代入。
pandasを使う。
df.loc[df['A'] < 0, 'A'] = -100
df.loc[~(df['A'] < 0), 'A'] = 100

ってかmergeで一発だった!
all.merge(mergedf,on='column',how='left')


この記事が気に入ったらサポートをしてみませんか?