第4回 素人Kaggle日記(なにもかも超ひさびさ)
いまさら(半年ぶり)タイタニックを思い出すのはめんどくさい
ということで、心機一転してあたらしい問題を解きたい。
Getting Startedの中から、House Pricesを選んでみた。
販売価格を予測して, 特徴量エンジニアリングやランダムフォレスト(RF), 勾配ブースティングの練習をしろとのこと
あとあとは多分これを見ながらになると思うけど、途中までは自力でのんびりやる。
Overview(Description)
RかPython, 機械学習の基本的経験があるならやってみて。このコンペは, 機械学習のオンラインコースを終えていて, 注目の高いコンペに挑戦する前にデータサイエンスの学習者が自分のスキルを広げるのにちょうどいいとのこと。
このコンペの背景が最初に書かれている。
不動産屋に希望の住宅について説明してもらっても、天井の高さとかそんな話は普通は言わないが, この練習用のコンペのデータセットからは、そんな特徴が実は価格に重要な影響があるんだと証明できるそう。
あとこのコンペでは79個の説明変数を使って価格を予測するよってことが書いてある。
特徴量エンジニアリングとランダムフォレスト・勾配ブースティングの練習になるそうな。
このデータセットは有名なボストン住宅価格予想よりもとても良いらしい。
Overview (Evaluation)
それぞれの住宅価格を予測するのが目標で、最終的にはテストセットについて予測をしないといけないとのこと。
提出する結果はRMSE(値のlogとったやつで残差を考えて、その2乗和をルートとったやつ)で評価するとこと。なんでlogかっていうと高価な家と安い家ではズレに差が出るからそれを揃えるためらしい。
こういうフォーマット(住宅ID, 価格)で提出しろとのこと
そして12時になっちゃったので寝る。
次回こそは, 機械学習のところまでやりたい。
今週忙しいから多分来週の金曜日とか。
データサイエンス・機械学習を勉強し、記事にするための書籍代などに利用したいと考えています。サポートいただけると嬉しいです。