データサイエンスを支える考え方について - 2019年10月の読書録より
先に断っておきます、pandasおよびBokehは出てきません!
(データサイエンスっぽい素材探してたらこれが見つかった笑)
10月はこの二冊にガッツリと焦点絞って紹介します。
(意訳:転職直後およびイベント多数で時間が取れなかった)
データサイエンスを支える考え方 #とは
もうちょっと長ったらしく書くと、
「データサイエンス・統計を使って結果を出したいときの考え方」
です。
これらをやるのにやれ機械学習だのPythonだの、色々やらなきゃ覚えなきゃ...!って方は多いかと思います。
が、(一応データサイエンス・統計でもそれなりに結果出してる)自分としては、これらは手段(≒シンプルかつ良質な課題だったら場合によってはEXCELで十分とかちょいちょいある)の話なのでむしろ考え方の方を大切にしています。
・自分が本当に欲しい物を言語化する
・物事を俯瞰的に、広く捉えてゼロベースから仮説を立てる
・言語(文脈)とデータ(定量的なもの)の掛け算から物事を見立てる
データサイエンスの「How(どうやってやるか)」より、「Why(なぜやるか)」「What(何をやるか)」寄りの話と思ってもらえればこの先すんなり読めると思います。
マネー・ボール
先に言っておきます。
映画版とは全くもって別物です!
今の統計・データサイエンスなブームの文脈で必ずと言っていいほど出てくる書籍です、個人的には人生のバイブルでもあります。
正直な話、だいぶ穴があくまで読んでいるのですが、年に一度程度読み直しています、なぜなら良い本は読み直すとその時々違う感想が出てきて学びが深まるからです(この辺うまく言語化してnoteにしたい)。
ご存知じゃない方の為に少し解説すると、
・限られた予算でメジャーリーグを戦う貧乏球団(オークランド・アスレチックス)を統計的なアプローチ・経営で立て直した実話
・他球団が全く目をつけていない・評価が低い選手を安く集め、適材適所の配置でチームを勝利に導く
・これらを主導したビリー・ビーンGM(当時)および、野球の統計学「セイバーメトリクス」を生み出した人たちの半世紀
について語っている本です。
セイバーメトリクスの解説はおそらく拙作のブログが一番読みやすいのでそちらをご覧いただくとして、今回読んでいて刺さったのが
試合なんか見たって、主観的な感情が生まれるだけだ。
主観は逆効果につながりかねない。
ここに限ります、何度も読んでこの言葉も目に入ってましたが今回が一番しっくり来たかも。
野球に限らず、それそのものの当事者(もしくは当事者と思い込んでいる当事者じゃない人)の人が騒ぐのは目に見えるものに対しての「主観的な意見」だったり、知ってるがゆえの「オタク的な視点」だったりすることがあるのですが。
これらってちゃんとデータ分析とかしていると、バイアスがかかっちゃったり思い込みを増すだけで意味が(ryってなるんですよねと。
マネー・ボールではこの件に繋がるまでの間に、
・プライドをしっかり持たないと、あるいはプライドを捨てないと、正しい選択を貫けない
・データが主役ではない。主役は解釈だ。
・バットを一度でも握ったことがある人間は「野球について熟知している」と思い込む。
といった学びが深い、刺激的なワードで紹介しています。
これらは映画版にはない要素(大事なので何度でも言う)なので、データを扱う商売を目指している方は考え方・思想の訓練と思ってぜひご一読してほしいなと。
ビッグデータの残酷な現実
これはちょっと前の本ですが最近友人に紹介されて読んで「おお!」ってきたのでご紹介。
いい意味でタイトルそのままの本です、いわゆるマッチング系サービスのデータ分析から見えてきた現実や、ネットにおけるビッグデータ時代に入るまでの背景・歴史などなどを語っている本です。
この本を最後まで読んで特に刺さったのが、
言語とデータが結びつくと、時間という強力な次元が生まれる。
この本の分析事例が基本的に、「マッチングサービスのテキスト」「テキストを字句解析した結果の情報(出現回数とかベクトルetc...)」「時間などでタグを切り分ける」的なのを繰り返しているのですが、これに紐づく最後のオチが秀逸(これはぜひ読んで欲しい、書くとネタバレになるのでやめとく)なのと、データから見えてくる事実って案外見落としがちだよなあ...というのが学べていい感じでした。
というのと、この本でもちょっとだけスポーツ分析の話もあり(ネイト・シルバーの統計とかも出ています)、スポーツ分析って強いなと改めて思ったところも面白いです。
手を動かしたい・手法を学びたい方は
と、ここまではデータサイエンスの「Why」「What」の話でしたが、「How」の話も少しだけ。
比較的バズったのでお読みになった方も多いかと思いますが、こちらにエイッと書きました。
How(どうやってやるか)をお悩みの方はぜひ↑のエントリーを参考に自分がどこでつまってる(もしくは何をやりたいのか)を整理するのがベストかと思います。
というのと、「How」だけではやはりダメで、「Why」を見極める・捉える・考える力も磨いてほしいなあというのがこのエントリーのオチでございました。
11月の読書は?
上記のエントリーを公開したところ、いろいろな方に勧められた以下の二冊を攻めたいなと。
データサイエンス系じゃないですが、おつまみ程度にこちらも楽しみたいと思っています。
頂いたサポートは、書籍購入・コミュニティ支援および、個人プロダクト(開発中)のリソースとして活用させていただきます。