見出し画像

明日使えるデータサイエンス超入門:「相関」

相関って聞いた事ありますよね?

「偏差値の高い高校に行くと、頭がよくなる」
「スマフォを多く触る子供は頭が悪くなる」
「BCGをうっていると、コロナにかからない」
いろんなところで聞く機会があります。一つでも、「そうだよね」って思った人は、是非この記事を読んで、考えてみてください。

データサイエンティストとして働いていても、相関はよく出てくる単語です。とりあえず、相関を求めるというのはよくある事です。

さて、相関ってなんのことだかちゃんと知っていますか?
これは、データを触る仕事をしている人以外も是非理解しておいて欲しいワードです。これを理解していてもらえると話がスムーズで非常に助かるのです。自分も会社で営業の方に説明する時に、「相関くらい知っといてよ・・・」って何度思った事でしょう(笑)

さらに、私生活においても様々な場面でも活躍します。最近では嫌な話ですが、失業率と自殺率が相関するなんていう話をよく聞きますよね?知らないとひょっとしたら騙されているかもしれません。(失業率と自殺率は恐らくちゃんとした因果ですが。)

さて、私は社会の統計リテラシーを一段上げたいのです!(笑)
そのための、明日から使えるデータサイエンス講座第一弾!
「相関」について勉強しましょう!

相関ってなに?

相関とは

2つ以上の系列において、一方の値がもう一方の値に連動して動く関係

の事です。要するに、2次元空間にプロットした時に直線になる事です。

例えば、身長と体重は相関すると言われています。身長が高くなるに連れて、体重は増加していきます。2次元にプロットすれば、やや直線になるでしょう。この時、横軸は身長、縦軸は体重になり、一つの点は一人を表します。

画像2

なんとなく、直線に並んでいるのが見れますよね?この時、身長と体重は相関しているといいます。

どれくらい相関してるの?

では、その相関、どの程度相関しているんでしょう?

これを測るための指標が相関係数です。
一口に相関係数といってもいろいろな種類がありますが、ただ相関係数と言ったら普通はピアソンの相関係数を指します。
式で書くとこんな感じです。

スクリーンショット 2020-04-06 22.01.57

まぁよくわからないですよね(笑)覚えなくて大丈夫ですw

このピアソンの相関係数は相関が強い程1に近づき、相関がなければ0になります。さらに負の相関になると−1に近づいていきます。
ものにもよりますが、感覚的には大体この相関係数の絶対値が、0.4~0.8くらいだと相関しているといいます。0.8以上の時は、同じものを測っている可能性を疑った方がよいと思われます。

相関と因果は違う!

ここが一番重要です。
相関は因果とは違います。例えば、前の例に出した、身長と体重で説明します。
「身長と体重に相関があります。」→「体重が重いと、身長は高くなる」
ふむ。こんな因果はありませんね。身長が高いと体重が重くなる事はありそうですが、逆はそうでもないと思いますよね。
「何を当たり前な事を言ってんだよ」
いやいや、これって結構よくあるんですよ?じゃぁこんなのはどうでしょう?
「偏差値の高い高校に行くと、頭がよくなる」
さて、これはどっちが原因になると思いますか?
有名高校に行くから賢くなるのか、賢い人が行くから有名になるのか。
多くの人は前者だと思っていると思いますが、学術的には後者だと言われています。
以下論文では、ボストンにある名門進学高校にギリギリ入学できた人と、ギリギリ落ちた人のその後の学力の伸びは、ほとんど差がない事を明らかにしています。

Atila AbdulkadiroGlu & Joshua Angrist & Parag Pathak, 2014. "The Elite Illusion: Achievement Effects at Boston and New York Exam Schools," Econometrica, Econometric Society, vol. 82(1), pages 137-196, 01.

こんな話があります。
「インターネットの普及率と地球温暖化は相関する」
えぇ、相関するでしょうね。でもだから、地球温暖化の原因をインターネットの普及に求めるのは無理があります。(あるのかもしれませんがこの分析からはわかりません。) これは偽相関というものですね。
これは、わかりやすい例ですが、こんなの世の中に無限に溢れています。
「朝ごはんを食べる学生は学力が高い」
これは有名な偽相関ですね。朝ごはんを毎日食べる家庭は家庭環境が良いので、学力が高い場合が多いという話で、直接的な関係はないのです。

すなわち、因果関係を示すためには、相関分析だけでは不十分なんです。
にもかかわらず、相関分析だけで、因果を示そうとする人が非常に多いんですね。
なぜか。もちろん、都合の良い解釈をおしつけるためです。「ゲームの利用率が増えると犯罪率が高くなる」と言っている人は、ゲームをやらせたくないだけなんです。知らないうちに騙されていますよ?

おわりに

いかがでしたでしょうか?
本日は相関についてお話しました。
PVが伸びたらシリーズ化します(笑)

この記事が参加している募集

サポートしていただいたお金は、新しいボードゲームやカードゲームをプレイするためのたしにします! プレイした感想は順次紹介していきます!