見出し画像

相関と因果をもう一度

『データは見方が8割』では1週間に1本データに関する記事を発表していきたいと思います。

よくある相関と因果の話。これをもう一回考えてみましょう。

こちらの図、Twitterでちょっと前、話題になっていたのですがご覧になった方はいるでしょうか?

吉澤さんという方があげてくれていた図です。更新版がnoteにアップされていますが、今回はこれを参考にさせていただこうと思います。

まずは相関

まずは、相関から考えてみましょう
相関を理解するために、質問です。

相関の反対は何でしょうか? 

ぱっとでますか? 
ここから有料にするといいのかしら なんて、答えまでの感覚を少し開けております。


正解は、独立です。(統計学的な意味なのかな)

独立というとイメージしやすい例といえば、サイコロを2個順番に振ったとしても、1回目の出た目が2回目の出る目に関係ないというときに使うあれです。1回目偶数、2回目奇数が出る確率は?という問題を中学校とかでやったのではないでしょうか?
二つが独立なので確率を掛け合わせるだけでよかったんですね。

実は独立ではない場合(弱いなりに少し相関があると)、実はこの計算は少しだけ複雑になったりします。(相関みたいなもの(共分散)を意識する必要が出てくる)

このように、二つのデータに関係がちょっと以上にあることを相関があるといいます。

ちなみに相関係数がどれくらいあれば、2変数に相関あるといってよいかという議論がビジネス的にたまにありますが、統計学的にはそういうものはないそうです。長くなるので割愛しますが、共分散同士を比較しやすいようにしたものが相関係数なのでどちらの方がより相関が強いかで見ることが統計学的には正しい見方ということでした。
が、ビジネスの場で自分は、0.8以上あれば結構強いですね、0.6くらいあれば相関はそこそこありますねくらいに行っている気がします。

どちらかが動くと決まったルール(一緒に大きくなるか、逆に小さくなるか)でもう一方が影響を受けることを相関といいます。よくグラフでは右肩上がりのグラフが出ることもありますが、右肩下がりでも相関はあります。(これは因果も同じ)

自分が持っている相関のイメージといえば、みんな大好きドラゴンボール。
主人公、孫悟空と敵の強さはまさに相関関係。相手が強くなれば、悟空も強くなるし、強くなった悟空にはまたさらに強い敵が出てくるという。
悟空を弱くするために、心臓病になったり、アニメでは子供に戻ったりいろいろありましたが、敵を強くするだけではない仕組みとかもありましたね。

相関と疑似相関(見せかけの相関)

吉澤さんという方があげてくれていた図です。更新版がnoteにアップされていますが、今回はこれを参考にさせていただこうと思います。

ここで先ほどの図をもう一度見てみましょう。

ご存じの方もいるかもしれませんが、この図結構Twitter界隈で統計学クラスターの方たちからご指摘がありました。確かに統計学的に考えると間違っているのですが、ビジネスの場面的に考えるとはわからんでもない場面がかなり出てくるんですよね。

何も考えずただ二つのデータのグラフを書いて右肩上がりになっています。二つのデータに関係(相関)がありますっていう分析を見たケース。
自分も言っていたことがり、前職の先輩アナリストに指摘されて統計学を改めて勉強しなおしたという背景が。。。(本当にその先輩アナリストには感謝です)

これが上にある疑似相関(個人的には言葉が好きじゃないので、見せかけの相関と呼ぶことが多い)なのですが、ビジネス的な考え方、統計学的な考え方で相関を考えるとこんな感じになるのではないかと思います。

筆者作成(ビジネスと統計学で若干相関の意味が違っている気がするの図)

左のベン図の考え方、見せかけの相関の時には、二つのデータに関係ないこともあり得るし、因果関係の部分の時は1方向になることもあるとは言えるので、必ずしも間違いではないかなと思ったりしていました。相関の〇の中すべてをまず相関というイメージ。かなり相関(もしくは2つの間に関係がある)という言葉がかなり抗議に使われているケースです。

統計学では基本、、因果関係がわかっていれば、因果、疑似相関ではないことを確認したうえで、相関関係といえば、双方向は絶対という感じかなという印象です。(濃い青部分だけを相関関係というケース)

ここから先は

970字 / 1画像

この記事は現在販売されていません

ここまで読んでいただきありがとうございます。 スキを押していただけると嬉しいです。 フォローしていただけるとさらにうれしいです。