データの落とし穴について勉強した話
因果関係とは
2つのデータが原因と結果の関係にあることで、「〇〇をすると××が起こる」という関係のことを言う。
昔話でよく聞くのが「風が吹けば桶屋が儲かる」ってやつ。※詳細は省略
この「風が吹く」と「桶屋が儲かる」の2つの関係が本当に因果関係であるのかを数学的(定量的)に考えたい(因果推論という)と思う。
結論:”因果関係じゃないかもしれないと疑うこと”から始めよう
結論から言うと、因果推論にはかなり高度な統計学に踏み込む必要がある(と思う)ので、ここで話すのは難しい。
筆者は統計検定2級(大学2年レベルと噂で聞いた)を取得しているが、その範囲にも因果関係を求める公式は出てきていないと記憶している。
(推定・検定で”効果があるかどうか”を求めることはできるが、そもそもnoteでの説明は骨が折れすぎ)
ただ、誰でも今すぐにできるのが本当に因果関係かどうかを疑う姿勢を持つこと。なので具体例とともに身の回りのデータを疑う癖をつけよう!
具体例:ピアノを習うと頭が良くなる
「ピアノを習えば学力が向上する」と聞いたことはないだろうか。仮になくても、全然違和感のない結果だと筆者は感じる(学生時代にピアノが弾けて成績もトップという意識高い系の人が何人かいたような気がする)。
実際に難関大学に入学した学生の多くがピアノを習ったことがあるというデータがあるらしい。(「ピアノを習うと頭が良くなる」で検索)
なので、この結果から辿り着くのは「賢くなりたければピアノを習え!」だと思う。
しかし、これは本当にそうだろうか。
もちろん、データとして結果が残っているので「ピアノ」と「学力」になんらかの関係があることは間違いないが、本当に「ピアノを習った」から「学力が上がった」のか。この2つは因果関係にあるのだろうか。このように疑う姿勢でデータ読むと、こんな2つの背景が想像できるだろう。
子どもがピアノを習うことができる家庭は比較的裕福で、勉強に集中できる環境(家事やバイトしなくてもいいなど)がある。
親が教育熱心で子どもはピアノだけでなく塾や英会話も習っている。
だから学力が高くなっている可能性がある。
つまり、学力が高いことの原因がピアノではないかもしれないということだ。
これが今回のテーマのタネや仕掛けとなる部分だが、データを読むときにはデータの背景や関係を想像し疑うことが重要だと思う。
データの関係を知ることで正しく解釈、正しく活用
データの関係には下記のようなものがある。
ピアノの例はまさに交絡であり、世の中には交絡の関係にあるデータで溢れている。
いくつか有名で簡単な例を挙げると、、、
・熱中症患者が増えるとアイスクリームが売れる
・郵便局が多い地域はコロナ罹患者数が多い
・飲酒すると肺がんになりやすい
少し考えていただければすぐにわかると思うが、交絡因子はそれぞれ「気温が高い」「人口が多い」「飲酒者の喫煙率が高い」である。
コロナ罹患者数を減らすために郵便局を減らせ!とはならないのに、なぜピアノの例はすぐに腑に落ちてしまうのかという話である。
否定ではなく疑問を持つ
今回はデータの落とし穴についての話だが、ぜひみなさんも勉強してみてほしい。世の中的にもデータサイエンスやAI、DXなどがバズワードとなっており、筆者はデータを活用することは人のカンや経験よりも信頼できるものになっていく時代になると考えている(爆発的にスマホが普及した2011年あたりにガラケーが消えることが信じられなかったように、、、)。
ただ、天邪鬼になって否定するだけだと人間関係に落とし穴ができそうなので、疑問を持って背景を考える癖をつけるようにしよう。