kaggleのチュートリアルアイキャッチ

kaggleのチュートリアル。第4版公開しました

【更新履歴等】
・2018.10.7 第2版に更新しました。
・2019.4.13 第3版に更新しました。
・2019.9.20 第4版に更新しました。
・2019.9.22 誤字を修正した第4版ver2に更新しました。

---

【お知らせ】
第4版の紙の本は、「とらのあな」にて通信・店頭販売しております。
希望の方は、とらのあなで購入ください。


はじめまして。カレーちゃんと申します。▶︎Twitterアカウント @currypurin ▶︎ブログ

概要説明

技術書典4という技術同人誌の即売会で「kaggleのチュートリアル」を販売し、300冊完売という結果を達成することができました。
その後、私は専業のKagglerになり日々kaggleに取り組んでいます。

2019年9月に開催される、技術書典7において更新版のkaggleのチュートリアル第4版を販売します。このnoteではそのkaggleのチュートリアル第4版を販売いてします。
第4版は次のサポート ページで、コードとyoutubeでの説明動画への集約を行なっています。

サポートページからリンクが貼ってあるkernelのコードと、youtube動画のみでも十分kaggleを初めて見ることができると思います。まずはサポートページを確認してみてください

画像1


Kaggleの説明

Kaggleというのは、1年をとおして何らかの機会学習のコンペが開かれているサイトであり、世界中のデータサイエンティストが挑戦しています。

今流行りの機械学習に入門するのであれば、Kaggleから入門するのか最適だと思っているのですが、Kaggleのサイトは英語であり、日本人にはなかなか初めの一歩を踏み出すのがむずかしいです。

そこで、まずは英語がわからなくてもKaggleのチュートリアルコンペであるタイタニックの乗船者の生死を予測するというコンペに取り組むのが1番と考え、タイタニックコンペをわかりやすく解説するのがメインの本を作成しました。

このノートでは、有料ページで上記の本のpdfがダウンロード可能です。

第4版の目次

第1部
 第1章 Kaggleについて
 第2章 コンペのページの翻訳など
 第3章 まずは、サブミットしてみる
第2部
 第4章 タイタニックデータの概要
 第5章 LightGBMでのタイタニック
付録
 A pandas-profilingでのEDA
 B LightGBMについての補足説明
 C Santander Value Prediction Challengeで金メダルを獲得しました
 D HomeCreditコンペ 銀メダル獲得するために行ったこと(寄稿)
 E PetfinderコンペValidationの失敗談
 F Kaggleの称号と用語集
 G データ分析の勉強方法
 H kaggleに9ヶ月取り組んで学んだこと


【今後の更新予定】
アンサンブルについては全く書けていないので書きたい。


第1版の書評&試し読み


試し読み

第一版の目次と第一部は以下で読むことができます。

第3版の書評


---

価格・購入に関して

このnoteの販売価格は、1500円に設定しています。

kaggleのチュートリアル第4版のpdf版を読みたい方は購入ください。
また、購入いただくと第1版と第4版の全てがダウンロード可能です。

よろしくお願いします。

紙版の購入を希望される方は、以下のリンク先から購入ください。

この続きをみるには

この続き: 1,336文字
記事を購入する

kaggleのチュートリアル。第4版公開しました

カレーちゃん🍛専業kaggler

1,500円

この記事が気に入ったら、サポートをしてみませんか?気軽にクリエイターを支援できます。

note.user.nickname || note.user.urlname

いただいたサポートによりKaggleやnoteの更新に力をいれ、少しでもよいチュートリアルを作りあげます。よろしくお願いします。

嬉しいです!
242
2018年6月末に公務員を退職し専業kagglerになり、2019年4月kaggleマスターになる。今は年内にkaggleグランドマスターになることを目指して挑戦中。 twitter -> https://twitter.com/currypurin
コメント (16)
ご回答ありがとうございます。

下記でエラーが出ておりました。
③ 予測
Y_prediction = forest.predict(X_test)

遡ってみると、X_testを定義した下記が間違っておりました。
正:X_test = df_test.drop("PassengerId", axis=1).copy()
誤:X_test = df_test.drop("PassengerId", axis=1).copy

無事解決して先に進めそうです。
分割してエラーを突き止める方法もとても参考になりました。
ありがとうございます!
カレーさん こんにちは。
第4版pdf版を購入させていただきました。
大変丁寧な内容で、独学でとても助かっております。

pdf版 P.69のコード(import lightgbm as lgbから始まる)
で、pdf内容コピペでも、下記エラーが出て、つまづいてしまいました。

ググると、sklearn.preprocessing.LabelEncoder変換とやらが必要?とのことまではわかったのですが、今回の場合、じゃあどうすればいいのか分からず。よろしければご教示いただけますと助かります。
<エラー内容>
ValueError: DataFrame.dtypes for data must be int, float or bool.Did not expect the data types in fields Title
↑ これは単純に新たに追加した `Title` カラムが String型でDataFrameのデータとして扱えないだけなので、 `Title` カラムを dropしてあげると動くようになるはずです。
コメントを投稿するには、 ログイン または 会員登録 をする必要があります。