見出し画像

100日後にプロになるワシ16日目(Python)

今回は機械学習をさせるための学習データと解答データを作成する

説明変数と目的変数

機械学習では学習データを説明変数。解答データを目的変数という。

今回は全データを半分半分にして前半を説明変数。
後半を目的変数として扱う。

スクリーンショット 2020-08-28 0.29.14

前回作成したデータを使う

データを半々で分ける

スクリーンショット 2020-08-28 0.29.26

特徴量について

特徴量とは簡単にいうと答えを導くための学習のとっかかりです。

今回で言えば引っ越し回数に影響しそうな数値の事。

例えば、今回の引っ越しだと
3月、4月が繁忙期ということがわかっているので
「今が何月か」というのが一つの鍵になりそう

また、今日が何曜日か?も予測できる。
直感的に土日に引っ越しが多いと考えられるからだ。

次に、法人が絡む引っ越しは平均15も引っ越し数が異なることがわかっている。
これも特徴量になるだろう。

最後に、これはできれば入れたい。「祝日かどうか」
これも取得できると思う。

入れるか迷ったが、「休みの日」も入れる。休みの日は強制的に0になるからだ。
これも一応引っ越し回数に強い影響を及ぼすので、入れる。

今日は何曜日?

まずは曜日から入れる。月曜から日曜日まで0~6の値にする

スクリーンショット 2020-08-28 0.35.35

エラーが出てるけどとりあえず成功

スクリーンショット 2020-08-28 0.36.27

weekの行に曜日

感想

ちょっと短いけど時間切れ

正直曜日変換に一時間くらいハマった。
学んだのはDataflameとSeriesについて

あとはdatetime型とstr型。

当たり前だけど型によって使えるメソッドが違う。
あとはDataflameとSeriesによっても使えるメソッドが違う。
この4パターンでハマった。

おそらく使えないメソッドを何度か試したりしてたと思う。

次回は「月」「法人」「祝日」「引っ越し休み」の特徴量を作成する。



いつもサポートありがとうございます。 難しい方は感想をコメントでいただけると嬉しいです。