いまさらKaggleに挑戦してみる
どうも、Kaggleってよく話題になってたけど、Kaggleの上位は深層学習ばかりなイメージで、食わず嫌いしてたんだよね。
初見で興味がありそうなコンペがなかったというのもだけど。
しかし、いやしかし、日頃データ分析もしてる身からすると、あわよくばオッサンからデータサイエンティストになれたらと思ってる身とすると、やっぱ避けて通れないかなと。
で、いきなりもあれだし、チュートリアルのタイタニックからやるかなと。
そのためのチュートリアルだし。
今日は、いくつか方針を宣言する。
方針1 説明ができるモデルを作る
チュートリアルとはいで、ただ正答率だけ求めてもなと思う。
冒頭にも書いたけど、多量のデータを食わせて深層学習というのは、やりたいことじゃないので、説明性に重きを置きたい。
線形回帰(といっても生死の2値分類になるとロジスティック回帰になるが)、サポートベクター、決定木、教科書の前半に載ってるような手法を主にしていきたい。
噂にはランダムフォレストで70%は簡単に超えるっていうけど、ランダムフォレストや勾配ブースティングはあんまり使いたくない。いわんやニューラルネットワークをや。
方針2 特徴量の作成、取捨選択は頑張る
ハイパーパラメータのチューニングより、使う特徴量の工夫。
実務だとそれだよね。
食わせる元のデータが糞だと、吐き出されるモデルも糞。
スケーリング、欠損値処理、取捨選択、新しい特徴量の定義、それらが上手くいってればfitでチューニングなしでもいい結果が得られる(はず。そうはいってももちろん、チューニングはするけど)。
とにもかくにもデビューする
![](https://assets.st-note.com/img/1715087742971-BUOxOS4hh2.png?width=800)
今日はここまで。
読み込んだだけかよ・・・
この記事が気に入ったらサポートをしてみませんか?