Kaggleをちょっとやり始めてみたよ
今日の画像はyaguhaguさんのneko画像を使わせていただきました。ちょっとアグレッシブな感じですね。でも、案外怒ってることってなくて、この顔したあとに急にウトウトし始める、なんてこともよくある。
最近Kaggleを今更ながらやり始めたのでその感想でも書いてみます。
予測モデルに入れるデータを整えるのがすべて?
どうやら予測アルゴリズムは大体決まったものがあり、多分XGBoostとかがよく使われるのかな?そのアルゴリズムに整ったデータを入れて学習すればよい、ということなのだと思った。きっと、重要なのはデータの方で「意味がありアルゴリズムに入力できる形式のデータ」をどうやって作るか、ということなのでしょう。
なので、プログラミングが必要な部分は割と定型化されていてそれほどやることがない(トップレベルはわからんけど)。まあ適したモデルを選択してもよいけど、そんな面倒な検討はせず、めぼしいモデル全てにデータを突っ込んでみてよさそうな結果を選ぶ、というのが実態なんじゃないだろうか?
データについては今見たサンプルだと1)明らかに意味のないデータを取り除く(タイタニックだと部屋番号とか)2)フォーマットを整える(BooleanをInt型に、とか)3)データの分割(3個が一体になってるステータスをバラす、とか)をやっていた。
予測アルゴリズムは皆大体同じ、なのでデータを成形することで学習がうまくいって差が生まれる、ということだと思う。なので、まあKaggleはプログラミング技術的にはそこまで必要でなく(わからなくても他の人のパクればいい)、データの意味合いを理解することが重要なんじゃないかな。
この記事が気に入ったらサポートをしてみませんか?