統計学: 相関係数の意味と限界

データの相関という言葉も頻繁に目にするようになった。

データ間の関連性を検証するときによく用いるのが相関係数(正確にはピアソンの積率相関係数 Pearson's product-moment correlation coefficient)という量だ。定義などはWikipediaに丸投げしよう。


この統計量は、線型関係を持つ(つまり散布図にすると直線的関係を持つ)2つのデータ間の関連性の強さを定量的に示すための指標である。この定義を見失っている例が散見するが、そういう失敗をしないためにF. J. Anscombeが1973年の論文で示したのが次のデータである。


Anscombe (1973)の示した様々なデータ散布図。

これら4個のデータ散布図は、全て全く同じ相関係数を与える(Anscombe, F. J. 1973, The American Statistician, Vol. 27, No. 1, pp. 17-21.)

一見して分かるように、これらのデータの示す「関係性」は全く異なる。左上は通常の相関関係、右上は非線型相関、左下は外れ値の影響が強い場合、右下はそもそも1個のデータがなければ相関関係が意味を持たない場合である。

当然ながら、データの1つの統計量は、データの持つ限られた1つの側面を示すに過ぎないのだ。 データ解析をする人、解釈をする人を含むすべての人々は、まずは集約統計量ではなくデータそのものを見るべきという教訓になっている。

(初稿: 2023年10月23日)


この記事が気に入ったらサポートをしてみませんか?