見出し画像

相関関係の見方

データの分布、代表値、散布度などは、いずれも1つの変数に関する記述である。
→記述統計

しかしながら、日常生活の中で、例えば身長と体重、親の学歴と子どもの学力など、2種類のデータの間に何か関連があるかどうかを知りたいときがある。
この時に用いるのが、「相関関係」(correlation)である。



・参考サイト↓


【相関関係】

画像1

このように、
Xが増加するとYも増加するという関係性があると、「正の相関がある」という。
Xが増加するとYは減少するという関係性があると、「負の相関がある」という。
Xの増減がYの増減と全く関係がない場合に、それらの関係性に「直線的な関連がない」と考えてもよいのである。

画像2


【相関関係と因果関係は違う】

相関係数の値が大きくても、共変関係があるといえるだけで、因果関係があるとは言えない。
因果関係は原因と結果の関係であり、Aが起こればBが起きるという「A→B」の方向性がある。相関関係にはそういう方向性はない。


【擬似相関】

・見かけ上の相関
・二つの変数xとyの間に本当は相関がないにもかかわらず、第3変数zの存在により相関があるかのように見える

画像3


例えば、小学校1年生から6年生までの児童を対象に、漢字テストを行い、身長と知っている漢字の量(漢字力)を調べた。
データを分析すると、背が高ければ高いほど、学力が高くなるという相関関係が示された。

ここで注意したいのは、実際は、年齢が上がるとともに、身長は高くなるということ。それと同時に知っている漢字の量も増えます。つまり、身長と漢字力が、ともに年齢との間に強い相関があると考えられる。
そのため、もともと無相関の2変数の間にも、年齢によって疑似相関が現れてしまう。


【層別相関】

相関係数は集団性質によって変化する。
例えば、クラス全体の英語と数学の成績の間に、相関係数は0.20であった。しかし、実際に性別ごとに求めてみると、女の子において、英語と数学の相関係数は0.70で、男の子において、相関係数は0.40であった。
このように、集団ごとに計算した相関係数を「層別相関」(分割相関)という。

画像4


【選抜効果】

ある基準を持ち、集団の一部だけで相関係数を計算すると、全体で分析すれば見られたはずの相関が見られなくなること。

大学入試では、合格最低点以上の人だけが入学を許可され、それ未満の人は入学できない。だから、「大学入試の成績と、入学後の成績の相関係数を見て、両者にどの程度の相関関係があるかを調べよう」と思っても、実際に得られるデータは入学者のデータだ。
仮に、合格者・不合格者全体を調べることができるなら、入試の成績と入学後の成績にはある程度の正の相関があると思うのですが、入学者だけのデータで計算すると、相関係数は大きくならない。


画像5


この記事が気に入ったらサポートをしてみませんか?