【統計学】相関係数を求める
こんにちは。
最近、統計検定3級の勉強をしているチェ・ブンブンです。
noteでTeX記法を使った数式の記述ができることを知ったので、3級の大きなトピックでもある相関係数の求め方のメモを残していきます。統計に関しては高校3年の時にやったっきりで、やたらと面倒な計算が多かった印象を受けます。
統計検定3級のテキストを読むと、いきなり$${x}$$,$${\={x}}$$,$${\^{x}}$$と変数に記号がついたものが沢山現れた式が登場し混乱する。計算してみると大したことなかったり、言葉にすると長くなってしまうような動きを最小手数で書き表すのが数式の役割だということは分かるのだが、それでも結構厄介だったりするので、実際に手を動かしてみる必要がある。
ということで今回は「相関係数の求め方」について書いていく。
相関係数とは?
「身長が高いほど体重が重くなる」
「映画の年間観る本数が多いほど、映画館で観る回数が多い」
このような二つの変数による関係性を調べる指標として「相関係数」が使われる。相関係数を使うことで客観的に、どれぐらい関係しているのかを導き出すことができる。
今回は「映画の年間観る本数が多いほど、映画館で観る回数が多い」説を例にとって相関係数を求めていこうと思う。下記のデータを使用して考えていく。
相関係数の求め方は下記のプロセスで行う。
各項目の平均値を求める
各項目の偏差を求める
各項目の分散を求める
各項目の標準偏差を求める
共分散を求める
共分散を2つの項目のの標準偏差で割る(相関係数算出)
相関係数の分析
1.各項目の平均値を求める
まず各項目の平均を求めましょう。
求め方は、各項目の和/項目数です。
1年間で観た映画の本数の平均$${(\={x})=\frac{\sum_{i=1}^nx_{i}}{n}=\frac{(5+25+123+545+1024+302)}{6}\approx337.33(本)}$$
1年間で劇場で観た映画の本数$${(\={y})=\frac{\sum_{i=1}^ny_{i}}{n}=\frac{(3+10+43+124+324+243)}{6}=124.5(本)}$$
2.各項目の偏差を求める
次に求めるのは偏差である。これは、各項目において平均とどれだけ離れているかを表している。
■1年間で観た映画の本数の偏差
・平均鑑賞本数($${\={x}}$$)=337.33(本)
■1年間で劇場で観た映画の本数の偏差
・平均鑑賞本数($${\={y}}$$)=124.5(本)
3.各項目の分散を求める
偏差の二乗した合計の平均を分散と呼ぶ。
・1年間で観た映画の本数(x)の分散
$${S{x^2}=\frac{(-332.33)^2+…(-35.33)^2}{6}\approx768,995.17}$$
・1年間で劇場で観た映画の本数(y)の分散
$${S{y^2}=\frac{(-121.5)^2+…(118.5)^2}{6}\approx38,025.38}$$
4.各項目の標準偏差を求める
標準偏差とは分散の平方根である。
$${分散S{x^2}→標準偏差S{x}=\sqrt{768,995.17}\approx876.92}$$
$${分散S{y^2}→標準偏差S{y}=\sqrt{38,025.38}\approx195.00}$$
5.共分散を求める
共分散とは、xの偏差$${(x_{i}-\={x})}$$とyの偏差$${(y_{i}-\={y})}$$を掛け合わせた積の平均$${S{xy}}$$である。
$${S{xy}=\frac{(-332.33×-121.5)+…(-35.33×118.5)}{6}\approx12,977.89}$$
6.共分散を2つの項目のの標準偏差で割る(相関係数算出)
最後に相関係数を算出します。
共分散/[xの標準偏差]×[yの標準偏差]で算出します。
$${r=\frac{Sxy}{SxSy}}$$
$${=\frac{\frac{1}{n}\sum_{i=1}^n(x_{i}-\={x})(y_{i}-\={y})}{\sqrt{\frac{1}{n}\sum_{i=1}^n(x_{i}-\={x})^2}\sqrt{\frac{1}{n}\sum_{i=1}^n(y_{i}-\={y})^2}}}$$
$${=\frac{12,977.89}{876.92×195.00}\approx0.08}$$
7.相関係数の分析
相関係数が出ました。この数字を分析します。
相関係数rは
$${-1 \leq r \leq 1}$$
の範囲で求まります。-1に近いと負に強い相関が、1に近いと正に強い相関があり、0に近づくと相関関係が弱くなります。今回算出して出た相関係数は0.08。つまり集めたデータを分析すると「映画の年間観る本数と映画館で観る回数には相関関係がほとんどない」ことが分かります。
相関係数によっては下記のように分析することが可能です。
■r=-0.9の場合(強い負の相関)
「映画の年間観る本数が多いほど映画館で観る回数が減る傾向が強い」
■r=-0.08の場合(ほとんど相関がない)
「映画の年間観る本数と映画館で観る回数には相関関係がほとんどない」
■r=0.9の場合(強い正の相関)
「映画の年間観る本数が多いほど映画館で観る回数が増える傾向が強い」
つまり、今回のシミュレーションでは「映画の年間観る本数が多いほど、映画館で観る回数が多い」と仮説を立て、データを採取、実際に相関係数を求めた。しかし、結論として相関関係がほとんど見られないことが明らかとなった。
実際にnoteを書いてアウトプットすることで、統計調査における方法の一つを理解することができました。
映画ブログ『チェ・ブンブンのティーマ』の管理人です。よろしければサポートよろしくお願いします。謎の映画探しの資金として活用させていただきます。