Python de machine learning
4冊の本売り上げを予測する。いいねー。久々だ。
学習データは、約7万行。
6 countries 2 stores 4 books
4years of data
no N/A
合計値で見てみると、
ベルギーとドイツがうれてて、ポーランドが最下位。
kaggleforkidsが一番売れてて、Recipebookが一番不人気。
kaggleMartのほうが売れている。
idea
売れるタイミングに周期性があるのか。月や曜日
国によって違うのか。祝日などもちがうし。
kids用は夏休みとかに売れる?
・国別、店別、本別の時系列グラフが見たい。
まず、日付データをdatetime型にする。年月ごと、曜日ごとの売れ行きを比べてみる。
array(['Belgium', 'France', 'Germany', 'Italy', 'Poland', 'Spain'], dtype=object)
人口・GDP・
ランキングってのもある。
年・月・曜日・平均・他国売上
ベースラインやってみようプラン
1、データくっつける
2、datetimeに直す。
3、特徴量を作る(年、月、曜日)
4、国ごと、本屋ごと、本ごとに前年売上、前年月平均を特徴量にする。
5、ライトGBMに入れる。
ここまで。
今日の挑戦は、条件にあった場所への代入。
pandasを使う。
df.loc[df['A'] < 0, 'A'] = -100
df.loc[~(df['A'] < 0), 'A'] = 100
ってかmergeで一発だった!
all.merge(mergedf,on='column',how='left')
この記事が気に入ったらサポートをしてみませんか?