見出し画像

相関と共分散

独立の話をしたので、逆に相関のイメージの話をしたいなと。

相関を見るのって大事ですよね。二つのデータの関係性が分かります。片方のデータが大きくなれば、一緒に大きくなるのか、小さくなるのかそれとも、関係ないのか。

独立の関係があるときは、相関がない(無相関)ですね。(でも無相関だから独立だとは言えないらしいです。この辺がむずかしいところ。)


相関とは

一言でいえば2つのデータの関係性で、その強さを表す相関係数は1~-1までの間を取る数字になります。1であれば、完全な相関で、2つのデータが同じように(線形に)動く。以心伝心いきぴったり
Y=aX (a>0)みたいな関係が成り立っているときです。 

逆に-1のときは、反対に(線形に)動く Y=aX (a< 0)パターン。一つの数字が大きくなるとaの分だけ小さくなるものです。

0.8以上あれば、そこそこ相関あるといえるみたいに大学時代習った気がするのですが、その辺、決まった決まりがあるわけではなく、一般的には他の数字と比較してどちらの方が相関が強いみたいに見ることが重要です。

では、なぜ、相関の係数は±1を超えないのか。答えは簡単で超えないようになる数字(それぞれの変数のバラツキの大きさ:標準偏差)で割っているからです。では、何を何で割っているのか、そこで出てくるのが共分散なんです。

実は大事な共分散

共分散は二つの変数間のバラツキ具合。これを各変数の標準偏差で割ったものが相関係数になります。

 相関係数=共分散/それぞれの標準偏差

共分散は分散と同じように変数のスケールが大きくなれば大きくなります。例えばですが、分散の場合、すべての変数が2倍になると、分散は4倍(標準偏差で考えるとは2倍ですが)になります。ある変数Xの分散も、見方を変えるとXとXの共分散といえますので、2変数がどちらも2倍になると、共分散も4倍になることがなんとなくわかります。(本当は逆の考え方になるのですが、、)

なぜ共分散が重要かというと計算が相関係数を求めるより簡単で使いやすいためだからかなと思っています。 標準偏差ってルートの計算なども必要になるので結構大変なんですよね。ちなみに共分散はマイナスになることがあるのでちょっとドキッとすることがあります。(分散は2乗になるのでマイナスになることはないので。)

それでも相関係数が良く使われるのは、こちらの方が理解しやすいから。人間的には、相関係数の方がわかりやすい。

そのいいとこどりをする方法が、じつはあるんです。

その方法は、各変数の標準化(期待値=0 分散₌標準偏差=1 )なんです。

二つの変数の標準偏差が1の時(例:標準化されているとき)共分散=相関係数となり二つの特徴が使いやすくなります。 

わかっちゃいるけど、相関と因果は違う

最後に知っている人には耳タコな相関と因果の話。

皆さんご存じかと思いますが、月ベースで見たときにアイスの消費量が多いとたとえばセミの抜け殻を発見する数はたぶん相関します。

熱いほどアイスは消費しますし、夏の暑い時期に蝉がいっぱい羽化するからです。因果があるというのは、冬でもアイスをいっぱい食べれば蝉が羽化するかといえばしないはずです。 もしかすると、、季節外れに蝉がいっぱい羽化するとすると、、、いつもより熱いので、アイスを食べてしまうのかもしれませんが。。。。

言いたいのは夏、気温といった外部の要因にそれぞれ相関するためにこの二つにも相関があるということです。(偽相関とか疑似相関といいます。)

個人的には間接的とはいえ相関があれば相関あるといえるから偽ではないだろうと思っているのですが、、、見えない要因が何らかの条件で変わってしまうと相関がなくなってしまいますからってことなんだと思います。温暖化がすすんだときに蝉の羽化のタイミングも変わってしまうかもしれません。

ちなみに蝉の話をしたのは、娘が羽化を見に行き、夏休みの自由研究にしていたからなのと、出身地の北海道では冬も室内は暖かいので、意外にアイスの消費量はおおいです(冬に外の雪を見ながら食べる雪見だいふくはなかなか風流があると思っています。)。



ここまで読んでいただきありがとうございます。 スキを押していただけると嬉しいです。 フォローしていただけるとさらにうれしいです。