見出し画像

書評「Python ではじめる Kaggle スタートブック」

2020/3/19 に講談社様から「Python ではじめる Kaggle スタートブック」が出版されますが,本書を筆者の村田様よりご献本いただきましたので,今回はその私的レビューを投稿したいと思います.


なお,私こと Maxwell は共著(門脇・坂田・保坂・平松)で昨年の 10 月に「Kaggle で勝つデータ分析の技術」を技術評論社様から出版させていただいています.本書は,拙著と相補関係にあり,初心者向けとしての意味合いが強いと思います.もし「Kaggle で勝つデータ分析の技術」が敷居が高いと感じる場合は,まずは本書を読んでみることをお勧めします.


それにしても,Kaggle 関連の和書がだんだんと世の中に増えてきましたね.私自身は Kaggle の存在を知り,なんとなくサイトをみるようになったのが 5 年くらい前なのですが,当時は本はおろか日本語の情報ですら Web 上には満足に落ちていませんでした.ですので,非常に感慨深いものがあります.
そして,当時は情報の非対称性(コンペに長く参加している人だけが知っている手法や鉄則など)によるコンペにおける優位性というものが,今より高かったように思います.一方で今は,各コンペ特有の背景や発想など,より domain specific な要素がコンペで良い結果を残すのに重要になってきていると思っています.

少し脱線してしまいましたが,以下,書評となります.
本書の全般内容に対して書評を書こうかと迷いましたが,ここは折角ですので,拙著にない要素に限定していくつか本書のポイントを綴ってみました.

1. 全体のつくりについて

全ページに渡って図がふんだんに使用されており,平易な日本語で書かれていますので,非常に読みやすいと思います.また,モノクロでなくカラー仕様で,重要なポイントや見出しなどが認識しやすく,読んでいて疲れにくい気がします.各節の最後にある対談は著者らの実体験や感想も交えて書かれており,臨場感のある内容だと思います.

画像1

2. 初心者の方を意識した丁寧なガイド

著者陣がおっしゃっているように,「初心者を意識して」書かれている本です.Kaggle のアカウント作成から Notebook の使い方,submit までの一連の流れが図をまじえて丁寧に説明されています.
機械学習の経験が殆どなく,Kaggle に初めて挑戦する場合,個人的にもお勧めなのは Kernel に投稿されている有用な Notebook を利用するやり方です.有用な Notebook(たくさんの投票数がついていることが多い)は,丁寧かつ全般的に渡って行われている EDA の Notebook であったり,モデリングから推論,そして submit まで行え,それなりにスコアのでる Notebook であることが多いです.こういった Notebook は,敷居が高く感じる submit という一つの通過地点に到達しやすくしてくれます.
そして,このような Notebook を足がかりにしてコンペを始めていくためには, Notebook の機能を使いこなせなければなりません.本書は,機能を使いこなすという点も含めて,丁寧に解説してくれているのも大きな特徴でしょう.

3. 印象に残った点

個人的に驚いたのは EDA にかなりの紙面を割いている点です.しかもカラーですので,非常に見やすいです!
著者の石原さんが 「EDA は序盤と終盤の 2 回行う」と対談でおっしゃっていますが,私も近いイメージをもっています.本書内でも言及されていますが,EDA を単なる可視化として捉えてしまうと,データの背景に潜む有用な知見を見出すことができません.序盤に行う基礎的な EDA をもとに,色々な仮説をたて,もう一度,基礎的な EDA ではなく,より掘り下げた EDA を行っていく・・・.このプロセスが後々のスコアの差に繋がる重要な点だと私も思います.
この点に紙面を十分に使い触れているものはあまり読んだことがありませんでしたので,非常に印象に残りました.

4. 載っていない内容

これは,「Kaggle で勝つデータ分析の技術」でも何人かの読者の方々からご指摘をうけましたが,本書におきましても理論面の説明はほぼないです.特に,本書の場合はそれがより顕著かもしれません.
とはいえ,理論に関しては,あえて Kaggle に関連した書の中で勉強しなくとも,巷に良い書が溢れていると思います.もちろん,理論に基づいた上で Kaggle で得られる経験則や結果などを検証することは大事ですので,他の理論書も合わせて知識を蓄えていくことをお勧めします.
ちなみにですが,Kaggle でよく使用されている手法の中にはあまり理論的な説明ができないような「黒魔術的な」手法もあります.Kaggle での最大目的は理論が担保された精度の高いモデルの構築ではありませんので,そこは割り切って,精度の高いモデルであれば基本的にヨシ!の精神でいきましょう(笑

5. どんな方にお勧め?

繰り返しになってしまいますが,機械学習にあまり触れたことがなかったり,Kaggle に参加したことがない方にお勧めいたします.特に UI の説明に紙面をしっかりと割いていますので,本を片手に Kaggle のサイトの作りを確認していくこともできると思います(但し,Kaggle のサイトは頻繁に UI が更新されますので,その点は注意してください).

もし,本書を読み終え,もの足りなくなった場合は,是非「Kaggle で勝つデータ分析の技術」を手にとってみてください.
本書を読み終えた方であれば,きっとスムーズにこちらの内容にもうつっていくことができると思います!
それでは,最後までお読みいただきありがとうございました.

この記事が気に入ったら、サポートをしてみませんか?気軽にクリエイターを支援できます。

励みになります ʕ´ᴥ`ʔ
19