見出し画像

【第9回】相関関係-前編

こんにちは、kenstyです。私は高等学校における統計・データ活用分野における数学と情報の関わりについて興味を持っています。
これまでに考えたことや実践したことを、昨年末から少しずつnoteで発信をしており、自分の中で良い刺激となっています。今回で10回目の投稿になりましたが、これからもマイペースで続けていこうと思っております。

今回と次回は相関関係について、その中でも特に導入部分(相関係数の定義とその値に基づいて相関関係を説明する)をコンピュータを活用して理解を深めていけたらと思ってます。

記事の概要

データの相関とは

今回からのテーマであるデータの相関とは2つのデータ(変量)の間の関係で、「一方が増えれば他方も増える」あるいは「一方が増えれば他方は減る」というような傾向のことを言います。前者の傾向を正の相関、後者の傾向を負の相関といい、これは後で「相関係数」という統計量を用いて定義をします。2つの変量からなるデータを平面上に図示したものを散布図といい、これを見るとデータの大まかな傾向を読み取ることができます。

図1: 散布図の例

散布図上の点が1つの直線上に集まる傾向が強いときに相関が強いといいます。相関の強い・弱いも後で出てくる相関係数を用いて判断します。そして、この散布図上の点の配列に「できるだけ合うように引いた直線」のことを回帰直線といい、この直線の方程式を求め、それに従ってデータをよそくすることを単回帰分析といいます。正の相関、負の相関の正負は回帰直線の傾きの正負に対応しているともいえるわけです。

数学Iと情報Iでの扱い

ここで「数学I」の「データの分析」の内容を見てみます。
下記は「高等学校学習指導要領(平成30年公示)解説 数学編 理数編」からの引用です。

データの相関については,散布図及び相関係数の意味を理解できるようにするとともに,それらを利用してデータの相関を的確に捉え説明できるようにする。その際,標準偏差や分散の場合と同様に,相関係数を求める式に着目し,具体的な少数のデータを通して,その意味を理解できるようにする。また,相関と因果の違いについても具体例とともに取り扱う。
(中略)
相関と因果を混同して用いられることも多いので,生徒の分かりやすい例を用いて確実に理解できるようにすることが大切である。

高等学校学習指導要領(平成30年公示)解説 数学編 理数編 p.44

次に「情報I」の「情報通信ネットワークとデータの活用」の内容です。
下記は「高等学校学習指導要領(平成30年公示)解説 情報編」からの引用です。

データの形式や分析目的に応じた可視化の方法を選択する学習活動を通して,相関係数などの統計指標,相関関係や因果関係などのデータの関係性,調べようとするもの以外で結果に影響を与えている原因である交絡因子,データの関係性を数式の形で表す単回帰分析などについて扱うことが考えられる。
(中略)
更に,データを分析及び可視化するために適切なソフトウェアを活用する学習活動を通して,多くの項目のあるデータに対して,項目間の相関を見るためにデータを漏れのないように組み合わせて複数の散布図などを作成し,相関関係の見られる変数の組合せを見出し,その変数の組合せに関して回帰直線を考え,データの変化を予測する力を養うことが考えられる。

高等学校学習指導要領(平成30年公示)解説 情報編 p.39~p.40

あくまで私の感想ですが、「情報I」で求められている内容が比較的高度なものであると思われます。「数学I」で学んだ基礎をもとに「情報I」での学びを深めていくような学習順序が自然なように読み取れました。

今回の記事のターゲット

今回の記事は相関係数の定義までとし、次回は相関係数の意味を掘り下げて考えていく回にする予定です。数学の授業の中で生徒に端末を活用させながら授業を展開していくようなイメージを持って記事を書いています。

下記のような10名の生徒の数学と情報の小テストの点数のデータを用います。数学の点数が高い人は情報の点数も高い傾向にあると言えるのでしょうか?

図2: これから扱うデータ

表計算ソフトを使った分析

Googleスプレッドシートに下記のようにデータをまとめます。

図3: スプレッドシートを使ったデータ処理(入力前)

散布図描画

散布図を描いてみましょう。セルB2:C12を選択してメニューバーから、[挿入]→[グラフ]でグラフエディタを起動します。
グラフの種類を「散布図」に変更すればとりあえずはかけます。

図4: 数学と情報の小テストの点数の散布図(デフォルト)

もう少し見やすくするために、少しカスタマイズしていきましょう。カスタマイズタブを選択して、下記のようにしてみました。

[グラフと軸のタイトル]
 グラフのタイトル:タイトルテキストを「数学と情報の小テスト」
 横軸のタイトル:フォントサイズ14pt、Bold、色#1155cc
 縦軸のタイトル:フォントサイズ14pt、Bold、色#cc0000
[横軸]・[縦軸](どちらも同じ設定に)
 ラベルのフォントサイズ:14  最小値:0  最大値:11
[グリッドラインと目盛](横軸・縦軸とも)
 主目盛線の表示モード:間隔  主目盛線の間隔:1
 主目盛のチェックボックスにチェック

下のような感じになりました。

図5: 数学と情報の小テストの点数の散布図(カスタマイズ)

平均・分散・標準偏差

それでは、平均・分散・標準偏差を順に求めていきます。
AVERAGE関数、VAR.P関数、STDEV.P関数は用いないという「しばり」をつけ、統計量の定義と表計算ソフトの操作の両方の復習です。

  • セルB13 =SUM(B3:B12) → セルC13~H13にコピー

  • セルB14 =B13/10 → セルC14にコピー

  • セルD3  =B3-$B$B14 → セルD4~D12にコピー

  • セルE3  =D3^2 → セルE4~E12にコピー

  • セルE14 =E13/10 (分散=偏差平方の平均)

  • セルE15 = SQRT(E14) (標準偏差=分散の正の平方根)

  • 列F・Gは列D・Eと同様なので省略

図4: スプレッドシートを使った相関分析(標準偏差まで)

数学の方が平均点が低く、またデータの散らばりが大きいことが分かりました。それでは、一番右の列を見てみます。

共分散

これまでは数学の点数、情報の点数のそれぞれの変量について、統計量を調べてみましたが、ここからはこの2つの変量の関係を見てみたいと思います。もう一度、散布図を見てみましょう。それぞれの変量の平均を境界線にして、散布図を4つの領域に分けてみます。

図5: 共分散の理解のために

数学の得点が高い人は情報の得点も高い傾向にあるときは、
「数学も情報も平均点より高い人」と「数学も情報も平均点より低い人」
が多い傾向にあると言えます。
数学の点数を x、情報の点数を y として、これを言い換えると、
「xの偏差とyの偏差がともに正」または「xの偏差とyの偏差がともに負」
であるような組が多いと言えます。
この両方に共通していることは、xの偏差とyの偏差が同符号であること、すなわち「xの偏差とyの偏差の積が正」であることです。
この、「xの偏差とyの偏差の積」のことをxとyの偏差積といいます。
偏差積が正であるような組が多いかどうかは、偏差積の平均を見て判断すればよく、これをxとyの共分散といいます。
数学の教科書では次のようにまとめられていることが多いと思います。

2つの変量$${ x,\ y }$$の$${ n }$$個の組からなるデータ

$$
(x_1, y_1),\ (x_2, y_2),\quad \cdots \quad ,\ (x_n, y_n)
$$

に対して、変量$${ x }$$の平均を$${ \overline{x} }$$、 変量$${ y }$$の平均を$${ \overline{y} }$$とするとき、$${ x }$$と$${ y }$$の共分散$${ s_{xy} }$$を、次の式で定義する。

$$
s_{xy} = \frac{(x_1 - \overline{x})(y_1 - \overline{y})+(x_2 - \overline{x})(y_2 - \overline{y}) + \ \cdots \ + (x_n - \overline{x})(y_n - \overline{y})}{n}
$$

それでは共分散を求めてみましょう。セルI14に出力させます。
まずは偏差積を求め、偏差積の平均(=偏差積の和 / データ数)を求めるという手順です。

セルH3  =D3*F3 → セルH4~H12にコピー
セルI14  = H13/10

図5: スプレッドシートを使った相関分析(共分散まで)

共分散の性質(変量の変換)

正の相関か負の相関かを見るだけならば共分散は有効な指標ですが、これでは相関の強さを表す指標になりません。実際、数学の点数も情報の点数も10倍にして100点換算をすれば、共分散は100倍になってしまいます。

図6: スプレッドシートを使った相関分析(点数を10倍)

どのような大きさのデータであっても「共通の物差し」で測ったような偏差積が欲しいところです。
そこで前回の記事で考えた「標準化」を使います。すべてのデータを平均0、標準偏差1にするような変量の変換のことでした。

ここで、元のデータを標準化したときの表を作ってみます。

  1. 最初のシートをコピーします。

  2. 元のシートの名前を「元データ」、コピーしたシートの名前を「標準化」に変更します。

  3. 「標準化」シートのB3:C12を消し、代わりに次を入力します。
    セルB3 =('元データ'!B3-'元データ'!$B$14)/'元データ'!$E$15
    セルC3 =('元データ'!C3-'元データ'!$C$14)/'元データ'!$G$15

以上の手順に従うと、次のような表ができあがります。

図7: スプレッドシートを使った相関分析(標準化)

ここで示している共分散は、すべてのデータを共通の物差しで測ったような統計量になります。標準化したデータは平均が0であるため、偏差は標準化したデータそのものに等しいことに注意してください(列Bと列Dが同じ、列Cと列Eが同じですね)。
したがって、この場合の偏差積は標準化したデータ同士の積、共分散はその平均になります。この場合の共分散を文字式で計算してみましょう。

$${\frac{1}{n} ( \frac{x_1 - \overline{x}}{s_x} \cdot \frac{y_1 - \overline{y}}{s_y} + \frac{x_2 - \overline{x}}{s_x} \cdot \frac{y_2 - \overline{y}}{s_y} + \ \cdots \ + \frac{x_n - \overline{x}}{s_x} \cdot \frac{y_n - \overline{y}}{s_y} )}$$ 

 $${= \frac{1}{s_x \cdot s_y} \cdot \frac{(x_1 - \overline{x})(y_1 - \overline{y})+(x_2 - \overline{x})(y_2 - \overline{y}) + \ \cdots \ + (x_n - \overline{x})(y_n - \overline{y})}{n}}$$

$${ =  \frac{s_{xy}}{s_x \cdot s_y} }$$

この値(2つのデータを標準化したときの共分散)を相関係数といいます。今回の場合はおよそ0.4949となります。

相関係数の定義

ようやく今回の記事の目標に到達しました。最後に、相関係数の定義をまとめます。

2つの変量$${ x,\ y }$$の組からなる大きさ$${ n }$$のデータ

$$
(x_1, y_1),\ (x_2, y_2),\quad \cdots \quad (x_n, y_n)
$$

に対して、変量$${ x }$$の標準偏差を$${ s_x}$$、 変量$${ y }$$の標準偏差を$${ s_y }$$、$${ x }$$と$${ y }$$の共分散を$${ s_{xy} }$$するとき、$${ x }$$と$${ y }$$の相関係数$${ r }$$を次の式で定義する。

$$
r = \frac{ s_{xy} }{s_x \cdot s_y} = \frac{1}{n} ( \frac{x_1 - \overline{x}}{s_x} \cdot \frac{y_1 - \overline{y}}{s_y} + \frac{x_2 - \overline{x}}{s_x} \cdot \frac{y_2 - \overline{y}}{s_y} + \ \cdots \ + \frac{x_n - \overline{x}}{s_x} \cdot \frac{y_n - \overline{y}}{s_y} )
$$

結果は出ていますが、この定義式に基づいて、元データのシートの方にも数式を入力して相関係数を求めておきましょう。
セルI15に =I14/(E15*G15) をしますと、0.4949が出力されます。

図8: スプレッドシートを使った相関分析(完成)

$${ r }$$は-1以上1以下の値をとり、絶対値が1に近いほど相関が強く、0に近いほど相関が弱いことを示す値になっています。
相関の強い・弱いの絶対的な基準はなく、下記を1つの目安として判断します。今回は 0.4949 なので、弱い正の相関があると言えます。

図9: 相関係数の目安

いったんまとめ

今回はかなり数学寄りの内容になりました。
相関係数の定義において、共分散を標準偏差で割ることの意味をなるべく無理なく自然なこととして伝えたいと思っているのですが、なかなか難しいものです。説明しようと思うと、データの標準化の話は避けられず、これを文字式の計算だけで乗り切るのは結構な力技になります。そこで変量の変換が容易にできる表計算ソフトに計算を任せてしまい、具体的な数値で少しでもイメージをつかみながら論理展開をしていくことを目指してみました。

数学Iにおける相関係数の指導で悩ましいのは、相関係数の絶対値が1以下であることと、絶対値が1に近いほど相関が強い(散布図上でデータを表す点が1つの直線に沿って並ぶ傾向にある)ことの説明が、なかなか難しいということです。実質、シュワルツの不等式

$$
(a_1b_1 + a_2b_2 + \cdots + a_nb_n)^2 \leqq (a_1^2 + a_2^2 + \cdots + a_n^2)(b_1^2 + b_2^2 + \cdots + b_n^2)
$$

の証明なのですが、これは数学IIで不等式の証明を学習し、数学Bで$${ \Sigma }$$の計算とベクトルの内積を学習した後に、じっくりと取り組みたい気持ちがあります。
次回の記事では、真っ向勝負で証明するのは避けつつも、単に覚えさせるだけにならないような展開を模索してみたいと思います。そして、相関係数に基づいてデータを分析する手法をさらに深めて参りたいと思います。

最後までお読みいただきありがとうございました。
相関係数の性質の指導方法を共有していただける方がいらっしゃいましたらぜひコメントをいただけますと幸いです。