【情報収集時の注意点】関係性があるように見えてしまう、疑似相関とは?
はじめに
おはようございます。医療介護データ研究所の まじめな所長 です。
毎朝30分でその時思ったことをコラムとして書いています。
今日は「【情報収集時の注意点】関係性があるように見えてしまう、疑似相関とは?」というテーマで書きたいと思います。
納豆がコロナに効くってホント?
先日スーパーに行ったら納豆が売り切れていました。なんでかなーと思い調べてみると、納豆がコロナに効くという噂があるのだとか。
水戸納豆で有名な茨城県に新型コロナ初期のころに感染者がいなかったとか、大抵の感染症には納豆が効くとか、怪しい話がちらほら。
結局は、ただの噂ということなのですが、このように「○○が○○に効く!」という情報はよく目にします。
特にグラフを用いて、データで示されていると信じてしまいそうになります・・・。「納豆の消費量が多い都道府県ほど、感染症にかかる人が少ない」とか、そういうものですね。
そんな時、知っておきたいことが「疑似相関」です。
疑似相関とは
例えばこんなデータがあったとします。
貯金額と50m走のタイムに関係があることを示したデータです。この2つのデータに関係性はあると言えるでしょうか。
・・・
・・・
・・・
グラフのことを考えなければ、貯金額と50m走のタイムには、関係はなさそうですよね。
では、なぜこのような関係性を示すのでしょうか。
それは、「年齢」という別の要素が裏側に隠れているからです。
年齢が上がるほど、貯金額があがり、
年齢が上がるほど、50m走のタイムが遅くなる、
だから、貯金額と50m走のタイムにも関係があるかのように見えているというものです。
年齢(例えば20~50歳)と貯金額、年齢と50m走のタイムであれば関係がありそうですよね。
このようなケースを疑似相関と言います。
疑似相関とは、
2つの事象に因果関係がないのに、見えない要因(潜伏変数)によって因果関係があるかのように推測されること。
を言います。
現場感も大切に。
「○○と○○には関係がある!」という情報をデータで示されると、なんだか信じてしまいそうになります。
でも、ふと冷静にほんとにこれって関係あるのかな?
別の要素によって、関係性があるかに見えているだけではないのかな?
と疑ってみることも大切だと思っています。
普段は、データや数字重視だとしても、データを妄信しすぎず、自分の感覚(現場感)も大切にしながら、情報に向かっていきたいですね。
おわりに
今日は「【情報収集時の注意点】関係性があるように見えてしまう、疑似相関とは?」というテーマで書きました。
情報収集時の注意点については、他にも記事を書いていますので、よろしければ合わせてご参考ください。
【情報収集時の注意点】たった1つのことでグラフの悪意は見破れる
【情報収集時の注意点】そのデータの誤差は何%?これを覚えるだけでOK
医療介護データ研究所のnoteとTwitterでは、「データを誰もが活用できる世の中にする」というコンセプトで、データに関する話、医療介護業界に関する話を発信しています。
応援してくださる方は、ぜひフォローいただけると嬉しいです。
それでは今日も良い1日を。
記事を読んでくださりありがとうございます。読んでいただけることが励みになります。もしサポートいただけましたら、研究活動に使わせていただきます。