100日後にプロになるワシ16日目(Python)
今回は機械学習をさせるための学習データと解答データを作成する
説明変数と目的変数
機械学習では学習データを説明変数。解答データを目的変数という。
今回は全データを半分半分にして前半を説明変数。
後半を目的変数として扱う。
前回作成したデータを使う
データを半々で分ける
特徴量について
特徴量とは簡単にいうと答えを導くための学習のとっかかりです。
今回で言えば引っ越し回数に影響しそうな数値の事。
例えば、今回の引っ越しだと
3月、4月が繁忙期ということがわかっているので
「今が何月か」というのが一つの鍵になりそう
また、今日が何曜日か?も予測できる。
直感的に土日に引っ越しが多いと考えられるからだ。
次に、法人が絡む引っ越しは平均15も引っ越し数が異なることがわかっている。
これも特徴量になるだろう。
最後に、これはできれば入れたい。「祝日かどうか」
これも取得できると思う。
入れるか迷ったが、「休みの日」も入れる。休みの日は強制的に0になるからだ。
これも一応引っ越し回数に強い影響を及ぼすので、入れる。
今日は何曜日?
まずは曜日から入れる。月曜から日曜日まで0~6の値にする
エラーが出てるけどとりあえず成功
weekの行に曜日
感想
ちょっと短いけど時間切れ
正直曜日変換に一時間くらいハマった。
学んだのはDataflameとSeriesについて
あとはdatetime型とstr型。
当たり前だけど型によって使えるメソッドが違う。
あとはDataflameとSeriesによっても使えるメソッドが違う。
この4パターンでハマった。
おそらく使えないメソッドを何度か試したりしてたと思う。
次回は「月」「法人」「祝日」「引っ越し休み」の特徴量を作成する。
いつもサポートありがとうございます。 難しい方は感想をコメントでいただけると嬉しいです。