見出し画像

初心者からKaggle銀メダルへの道 vol.3

皆さんこんにちは!
このnoteでは完全な初心者からkaggleで銀メダルをとるという目標に向かってどのように勉強していくかという内容の記事を投稿しています。

データサイエンスを学びたい!という方はもちろん、データサイエンティストを育てたい!という方も、参考にしていただければ幸いです!

これはあくまで私の体験談が皆さんのお役に立てればと思っているものなので、技術的な質問や、個人的なコーチングをご希望の方は以下のオンラインサロンものぞいてみてください。

今回のもくじは以下の点についてお話ししたいと思います!

・タイタニックで得られたこと
・タイタニックの次のコンペ
・データサイエンティストに必要なPCのスペック

以上の3つになります!


【タイタニックで得られたこと】

早速今回のメインディッシュです。

kaggleの入門に最適なコンペティションとして、「タイタニック」があります。かの有名なタイタニックの乗客のデータを用いて生存する人間を予測するという内容になっています。データサイエンスやってるーーーと実感できるので、やっていてとっても楽しいです。

さて、タイタニックで得られたことは、たくさんあるのですが、3つに絞ってお話しします。

・よく使うコードを覚えられる

何かしらのコンテンツを使ってpythonを勉強しているときに比べると圧倒的にコードを書く量が増えた気がします。

locとか、isnullとか、リストとかディクショナリとか、applyとか。それまでいまいちよくわかっていなかったコードをどんどん書いて、どんどんエラーが発生します。

わからなくなる度に調べながら打ちまくっているうちに覚えられる感覚がありました。2か月間のpythonの勉強よりも、2週間のタイタニックのほうが覚えられます。もちろん積み重ねあってこそですけどね!

・分析、モデリングの全体の流れがわかる

最初にデータを見たときは何が何やらわかりませんでしたが、終わってみると、全体の流れが頭に入っている感じがしました。

データ確認→前処理→EDA→モデリング

タイタニックに入る前に言われてもなかなか頭に入らなかったのですが、今では暗唱できます。これがわかると何がいいかというと、次のコンペに行くときに、とりあえずこっからやってみるか!という見当がつくようになります。

・自分でデータに対して仮説を立てて、実験できる

これまでの学習は、写経がほとんどでした。もちろん写経も大切です。写経しまくるべきです。その次の段階の自分で考えるということは、写経の上に成り立っています。

仮説→検証のプロセスがまあ楽しいこと。普段は辛口に愛のムチをふるう私のコーチから面白い視点だねと言われて、舞い上がったEDAを載せておきます。

客室のデータがある乗客と、ない(欠損)乗客にデータを分けました。そしてその乗客をチケットの階級(Pclass)別でみてみたところ、偏りがありました。

キャプチャ

自分で考えたことを検証してみて、新たな特徴が見えることが楽しくて仕方なかったです。そして、こういった分析が特徴量エンジニアリングにつながっていくと思うと楽しくて仕方なかったです。

以上が主な感じことです。
タイタニックは点数が返ってくるので、それもなかなか楽しかったです。この時期はそんなもの気にする必要はないとはわかっているのですが、やっぱり点数がつくとゲーム感覚になるので楽しいですよね!
あ、タイタニックはkaggleをやらないデータサイエンティストを目指す方にもオススメだとおもいますよ!


タイタニックの次のコンペ】

タイタニックがひと段落して現在取り組んでいるのは、とあるロシアのソフトウェア会社の売り上げ予測(厳密にはちょっと違うけど)です。

タイタニックは生きているor死ぬの二値分類問題でしたが、こちらは打って変わって回帰問題です。こちらもタイタニックと同じで、練習用ではあるのですが、難度がまるで違います。

タイタニックが入門編なら、こちらは登竜門って感じです。ハンター試験とグリードアイランドって感じです。次回はこちらの内容も書きたいと思います!


データサイエンティストに必要なPCのスペック

少しわき道にそれるのですが、PCのスペックのお話をしたいと思います。

kaggleを進めていくにあたって、最低限PCのスペックは必要になってきます。というのも、最近まで使っていたPCがタイタニックあたりから悲鳴を上げ始め、ロシアの予測を始めたら、もう遅すぎて話にならなくなりました。

そのPCのスペックがこちら(辞書型風に)
{CPU : intel Core i5,  ハードディスク : SSD 256G,  メモリ: 4G}
そんなに低スペックなわけではないのですが、データ分析は大学のレポートとはわけが違い。特にメモリがパンク状態でした。

求められる最低限のスペックがこちら
{CPU : intel Core i5,  ハードディスク : SSD 512G,  メモリ: 8G}
ほんとはメモリは16Gあったほうがいいです。なんなら32Gあってもいいくらいです。

前のパソコンはちょうど買い替えようと思った日になんとびっくり突然フリーズして、その後不安定になってしまいました。余談ですが、この記事の投稿が、新PCの初仕事となっています。よろしくです。

今回は以上になります。お読みいただきありがとうございました!

この記事が気に入ったらサポートをしてみませんか?