コロナの情報を見ていて気づいた「相関関係」と「因果関係」の"関係"
ビジネスに限らず、常に「相関関係」と「因果関係」は混同されがちで、AのデータとBのデータに「相関関係」があるからといって、決して「因果関係」があるとは限りません。
上記のツイートのように、データ上の相関関係は偶然起きる可能性もある、あいまいな存在です。
ちなみにこのグラフが載っている本はこちらです。↓
この本は私も読んだことがありまして、他にもいくつか関連書籍を読み、相関関係を因果関係の違いは理解していましたし、混同しないように注意をしていますが、よく分かっていなかったことが1つあります。
それは「相関関係」と「因果関係」の"関係"です。
相関関係のあるデータがあったとして、何をすれば因果関係と言えるようになるのか、データ分析の本を読んでも、本質的な理解ができていませんでした。
正直にいうと、重回帰分析などのデータ分析を駆使すると因果関係も導き出せるような気がなんとなくしていたのです。
*
今回のコロナ関連で、様々なデータが日々Twitterを賑わせています。
「これはなかなかに、信憑性の高いデータを見抜く訓練になるな」と思いながらタイムラインを眺めているのですが、その中で興味深い仮説が3/26頃に流れてきました。
それはBCG予防接種とコロナの拡散の仕方に何かしら関係があるようだ、と示す画像でした。
これが本当だとしたら興味深いし、今後の予防接種のあり方が変わるなぁ、なんて思いながら見ている時に「そうか、これが相関関係で、この延長線上に因果関係はないぞ」と、突然ストンと腑に落ちたのです。
上のツイートを見ると、古いタイプのBCGを受けている地域と受けていない地域で、たしかに差がありそうですが、なぜその差が生まれているのでしょうか?
その解を出すには、BCG予防接種に含まれる成分や効果がCOVID-19にどう影響するのかが、実験などを通じて科学的に証明される必要があります。
具体的には「BCGの成分がCOVID-19を殺す」とわかり、またその理由が明確になり、関係性が示されて初めて「因果関係」が生まれます。
もう少し整理して言えば、相関関係はあくまで「仮説」のための関係で、「検証」を通じて始めて「因果関係」に変わるわけです。
逆にデータ分析をいくら繰り返しても、相関関係以上のことは分かりません。
こう説明すると、特にデータ分析や科学の世界で生きている方には「なんだ、当たり前じゃないか」と思われそうですが、おそらくココをはっきり区別できていて、相関関係がどうすれば因果関係になるかわかっている人って意外と少ないので、コロナに関する「デマ」が駆け巡っているのではないでしょうか。
コロナの一連の騒動で、それが個人的に体で理解できました。
コロナの情報が増えれば増えるほど、この「相関関係」と「因果関係」の判断軸を明確に持っていないと情報の取捨選択が適切にできなくなるように思います。
しかし実証実験は時間がかかるので、そうすぐには「因果関係」は見いだされないでしょう。
つまりしばらくは「相関関係」に基づいた仮説ベースで情報が発信される、と考えておいたほうが良いと考えています。
いまだかつて経験したことがない世の中になっているからこそ、適切な知識を持って、落ち着いて判断していきたいものです。
★合わせて読みたい
だいたいスターバックスで、あえてホットティーを飲みながらnoteを書いているので、ホットティー1杯くらいのサポートを頂けたら、こんなにうれしいことはありません。