見出し画像

データアナリスト必読書③「データ解釈学入門」

ヘッダー画像:Amazon

データアナリストとしての土台を築く

今回紹介する本は、江崎貴裕先生の「分析者のためのデータ解釈学入門」です。

江崎先生といえば、「データ分析のための数理モデル入門」や「RULE DESIGN」も執筆されていますね。

本書の内容はデータが溢れる現代においては一般教養として広く知られていて欲しいところですが、紹介されているトピックがあまりにも豊富なので、データ系の職以外の方に全て知っておいて欲しいというのは酷かもしれません。
しかしデータアナリストは最後の砦として本書に登場する内容は頭に入れておくべきかと思います。

本書に登場するのはデータを用意する際や解釈する際に気を付けるべきことなので、一見地味だし周りから大変さの理解を得にくいものかもしれません。
しかしながら、本書のような内容を理解していて注意点に気が付くということがデータ分析者としての専門性の核となるのではないかと感じています。
正直SQLが書けることよりも重要だと思います。

とはいえ、カラーと図が豊富で各トピックがコンパクトにまとめられているので、データ系に詳しくなくても楽しく読めると思います。
結局これも一家に一冊ですね!

そんなトピックまで扱ってるんですか⁉

「相関関係と因果関係を取り違えないように気をつけようね」「データ取得時にこんなバイアスが生じうるよ」みたいな内容かな~と思いつつ目次を見たら、想像を遥かに超えるカバー範囲に思わず二度見しました。
(ソシムのサイトを見るよりはKindleのサンプルをダウンロードして目次を見た方が細かく書いてあってイメージつきやすいかもしれません)

扱われていて特に驚いたものをいくつか紹介します。

因果推論の基本的な考え方

相関と因果の違いに気を付けましょうね~というのは大体の本に書いてあるのですが、「じゃあ因果関係かどうかを確かめたかったらどうすんのよ」に思いの外丁寧な解説がありました。

ランダム化比較試験(いわゆるA/Bテスト)の考え方や、ランダム化比較試験が使えないときの代替策(重回帰分析、傾向スコアマッチングなど)の基本的な考え方についての説明があり、手法の気持ちを理解するのに良い内容でした。

統計学の入門にあたる内容

サンプリングや仮説検定に関する話は書いてありそうだと思っていましたが、統計学の入門書に登場するような内容がまるっと載っていました。

一変数データの扱い(平均・分散などの記述統計量から変数の分布まで)や多変量データの扱い(検定から因子分析などの応用的なトピックまで)も網羅されており、理解のために最低限必要な数式とともに概観を理解できるような内容になっていました。

データを利用する際の罠について

これは最後の方の章なのですが、序盤でも「データを取得したり解釈したりする時点でこんなバイアスがあるよ」という内容を学んできているので、本書をここまで読んでいるとあまりの罠の多さに絶望してくるかもしれません。
平均値を見ることでどれほどの情報を失っているか、グラフの表現でどれほど解釈が歪むか、仕事以外でも問題になることが多いのもこのあたりの内容ですね。

「データ取得のコストもちゃんと考える」という話や、「評価指標はつ常にハックされる可能性に晒されている」という話も紹介されており、つくずくカバー範囲が広いなと感じました。
後者の具体例としては、医師の評価指標として「手術の成功率」を設けると、難しい手術を断るインセンティブが働いてしまい、それは望ましい効果ではないという話がありました。

残業時間を評価指標としたときに良く起こることは「実際に残業が減る」ではなく、「報告されない残業が増える」という恐ろしい現実もあります。
(周りで耳にしたこともちらほら…)

本格的にデータ分析を勉強したい時の最初の一冊に最適かも

とりあえずデータ分析なるものをやってみたいときはまずスプレッドシートで集計して可視化してみるようなことから始めるといいと思いますが、本格的に勉強しようと思ったら本書を先に手に取るといいかもしれません。

統計学の入門的なテキストで良書が沢山ありますが、「なんでこれが重要なんだ?」と腹落ちしないまま中々のページ数を勉強することになることは多いかと思います。(僕がそうでした。)

最初に本書を読むとデータを扱うということの全体感が分かるようになり、各トピックを深掘りする際にもスムーズにいくかもしれません。



この記事が気に入ったらサポートをしてみませんか?