読書感想文「Python ではじめる Kaggle スタートブック」
2020/3/19 に講談社様から「Python ではじめる Kaggle スタートブック」が出版されますが,本書を筆者の村田様より献本いただきましたので,今回はその感想を投稿したいと思います.
なお,私こと Maxwell は共著(門脇・坂田・保坂・平松)で昨年の 10 月に「Kaggle で勝つデータ分析の技術」を技術評論社様から出版させていただいています.本書は,拙著と相補関係にあり,初心者向けとしての意味合いが強いと思います.もし「Kaggle で勝つデータ分析の技術」が敷居が高いと感じる場合は,まずは本書を読んでみることをお勧めします.
それにしても,Kaggle 関連の和書がだんだんと世の中に増えてきましたね.私の場合,Kaggle の存在を知り,なんとなくサイトをみるようになったのが 5 年くらい前なのですが,当時は本はおろか日本語の情報ですら Web 上には満足に落ちていませんでした.非常に感慨深いものがあります.
その当時ですが,情報の非対称性(コンペに長く参加している人だけが知っている手法や鉄則など)によるコンペにおける優位性というものが,今より高かったように思います.今は,Kaggle 関連のサイトや本が普及した結果,コンペ特有の背景知識や発想など,より domain specific な要素が良い結果を残すのに重要になってきていると思っています.
本書全般の内容に関して感想を記そうか迷いましたが,ここでは,拙著にない要素に限定していくつか本書のポイントを綴ってみました.
それでは,短いですが最後までお付き合いください.
1. 全体のつくりについて
全ページに渡って図がふんだんに使用されており,平易な日本語で書かれていますので,非常に読みやすいと思います.また,モノクロでなくカラー仕様で,重要なポイントや見出しなどが認識しやすく,読んでいて疲れにくい気がします.各節の最後にある対談は著者らの実体験や感想も交えて書かれており,臨場感もありますね.
2. 初心者の方を意識した丁寧なガイド
著者陣がおっしゃっているように,「初心者を意識して」書かれている本です.Kaggle のアカウント作成から Notebook の使い方,submit までの一連の流れが図をまじえて丁寧に説明されています.
機械学習の経験が殆どなく,Kaggle に初めて挑戦する場合,個人的にもお勧めなのは Kernel に投稿されている有用な Notebook を利用するやり方です.有用な Notebook(たくさんの投票数がついていることが多い)は,丁寧かつ全般的に渡って行われている EDA の Notebook であったり,モデリングから推論,そして submit まで行え,それなりにスコアのでる Notebook であることが多いです.こういった Notebook は,敷居が高く感じる submit という一つの通過地点に到達しやすくしてくれます.
そして,このような Notebook を足がかりにしてコンペを始めていくためには, Notebook の機能を使いこなせなければなりません.本書は,Notebook の機能を使い方も含めて丁寧に解説してくれているのは大きな特徴でしょう.
3. 印象に残った点
個人的に驚いたのは EDA にかなりの紙面を割いている点です.しかもカラーなので,非常に見やすいです(EDA で色分けは大切ですよね)!
著者の石原さんが 「EDA は序盤と終盤の 2 回行う」と対談でおっしゃっていますが,私も近いイメージをもっています.本書内でも言及されていますが,EDA を単なる可視化として捉えてしまうと,データの背景に潜む有用な知見を見出すことができません.序盤に行う基礎的な EDA をもとに,色々な仮説をたて,再度より掘り下げた EDA を行っていく・・・.このプロセスが後々のスコアの差に繋がる重要な点だと私も思います.
紙面を十分に使って,この点に触れている本はあまり読んだことがありませんでしたので,印象に残りました.
4. 載っていない内容
これは,「Kaggle で勝つデータ分析の技術」でも何人かの読者の方々からご指摘をうけましたが,本書におきましても理論面の説明はほぼないです.特に,本書の場合はそれがより顕著かもしれません.
とはいえ,理論に関しては,あえて Kaggle に関連した書の中で勉強しなくとも,巷に良い書が溢れていると思います.もちろん,Kaggle で得られる経験則や結果などを理論に基づいて検証することは大事ですので,他の理論書も合わせて知識を蓄えていくことをお勧めします.
ちなみにですが,Kaggle でよく使用されている手法の中にはあまり理論的な説明ができないような「黒魔術的な」手法もあります.Kaggle での最大の目的は理論が担保されたモデルの構築ではありませんので,そこは割り切って,精度の高いモデルであれば基本的に ヨシ!の精神でいきましょう.
5. どんな方にお勧め?
繰り返しになってしまいますが,機械学習にあまり触れたことがなかったり,Kaggle に参加したことがない方にお勧めいたします.特に Kaggle の UI の説明にしっかりと紙面を割いてくれていますので,本を片手に Kaggle のサイトの作りを確認していくことができると思います(但し,Kaggle の UI は頻繁に更新されますので,その点は注意です).
本書を読み終えた後にもの足りなくなった場合は,是非「Kaggle で勝つデータ分析の技術」を手にとってみてください.
本書を読み終えた方であれば,きっとスムーズにこちらの内容にもうつっていくことができると思います!
それでは,最後までお読みいただきありがとうございました.
Happy Kaggling!
この記事が気に入ったらサポートをしてみませんか?