見出し画像

【第8回】分散と標準偏差-後編

前回に引き続き、分散と標準偏差についての記事を書いていきたいと思います。今回は標準偏差について少し掘り下げて考えていき、重回帰分析などで使われるデータの標準化について話をしてみたいと思います。
なお、今回の記事も「数学I」の授業においてコンピュータを活用して展開することを想定しながら書いてみました。

変量の変換

前回記事で使った10名の数学の小テストのデータを使います。

まず、10名とも一律5点を加算した場合の平均と分散を見てみましょう。

図1: 一律5点を加算した場合

平均:3→8(5だけ増加) 分散:1.2→1.2(変化なし)です。
点数が全員一律5点上がっているわけですから、平均点は5点上がり、データの散らばり方に変化がないことは直感的にも明らかですね。

次に、10名とも元の点数を20倍して100点換算した場合の平均と分散を見てみましょう。

図2: 一律20倍した場合

平均:3→60(20倍) 分散:1.2→480(400倍)になりました。
標準偏差は元の値の20倍になっていることに注意してください。

数学の授業ではこれを次のように公式にまとめ、文字式を使って証明すると思います。

$${ n }$$個の数字$${\ x_1,\ x_2,\quad \cdots \quad ,\ x_n \ }$$からなるデータ $${\ x \ }$$の
平均を$${m_x}$$,標準偏差を$${s_x}$$とし、$${a,\ b }$$を実数とすると次が成り立つ。

$$
m_{ax+b} = am_x +b\ ,\qquad s_{ax + b} = |a| s_x
$$

定義から平均・分散がどのように変わるのかを予測し、それを表計算ソフトを利用して実際に確かめてみて、数式を使って証明をしてみると理解が深まるのではないかと思います。

正規分布における標準偏差の意味

図3: 正規分布における標準偏差の意味

正規分布は自然現象や社会現象でみられる確率の分布ですが、正確な定義はなかなか難しいものです。ここではおおよそのイメージをつかむにとどめましょう。平均をピークとした左右対称の山型の分布で、あくまで理想的な分布になります。
平均$${m}$$,標準偏差$${s}$$の正規分布に従うデータは、
 $${m-s < x < m+s}$$   の範囲にデータ全体の約68%
 $${m-2s < x < m+2s}$$  の範囲にデータ全体の約95%
が含まれています。この事実がよく目安として利用されます。

データの標準化

データの中のある値が、分布全体においてどのような位置にあるのかを調べる指標として平均と標準偏差の組み合わせが有用であることは分かりました。そこで、これまで何度か扱ってきた都道府県別の人口と面積のデータを考えてみたいと思います。

東京都の人口と北海道の面積

平成27年(2015年)の都道府県別人口と面積のデータを調べると次のようになります。

都道府県別人口(単位:人、小数第1位を四捨五入)
  平均:2,704,144  標準偏差:2,699,508  
  1位の東京都の人口:13,515,271
都道府県別面積(単位:㎢、小数第1位を四捨五入)
  平均:8,042  標準偏差:11,570  
  1位の北海道の面積:83,424

東京都の人口、北海道の面積は全体の分布に対してどれほど極端な値といえるかを説明してみたいと思います。これまでの話から、平均値から標準偏差の何倍だけ離れているかを調べればよいことが分かります。

偏差 = 東京都の人口 - 人口の平均  = 13,515,271 - 2,704,144 = 10,811,127
偏差 / 標準偏差 = 10,811,127 /  2,699,508 = 約4.005

偏差 = 北海道の面積 - 面積の平均  = 83,424 - 8,042 = 75,382
偏差 / 標準偏差 = 75,382 /  11,570 = 約6.515

東京都の人口は平均より標準偏差の4倍程度離れており、北海道の面積は平均より標準偏差の6.5倍程度離れていることが分かりました。
正規分布に従うデータではないにしても、極端な値であることが分かります。

データの標準化の意義

ここで注目したいのは、人口と面積では、データの分布する範囲も異なれば、単位も異なるということです。しかし、どちらも「偏差を標準偏差で割った値」を用いることにより同一の指標で全体の分布に対する位置を判断できています。標準偏差は元のデータ、平均と同じ単位ですので、この商は無単位になるところがポイントです。分散の正の平方根をとった値を利用する意義はここにあります。それではまとめでみましょう。

$${ n }$$個の数字$${x_1,\ x_2,\quad \cdots \quad ,\ x_n \ }$$からなるデータ $${\ x \ }$$の平均を$${m}$$,標準偏差を$${s}$$としたとき、

$$
z_k = \frac{ x_k - m}{s} \qquad (k=1,\ 2, \quad \cdots \quad , \ n)
$$

とおくと、$${z_1,\ z_2,\quad \cdots \quad ,\ z_n \ }$$からなるデータ$${\ z \ }$$の平均は$${0}$$,標準偏差は$${1}$$になります。これをデータの標準化といいます。

図4: 都道府県別人口と面積のデータの標準化

四分位数との比較

最後にこのデータにおける「平均±標準偏差×2」と「四分位範囲に基づいた外れ値」を比較してみましょう。

図5: 都道府県別人口と面積における「極端な値」

どちらもデータ全体の分布において「極端な値」を検出するための有力な指標となっているように思われます。ただ、注意したいのは平均値や標準偏差はその極端な値の影響を大きく受けた値であるということです。このような場合は四分位数を使ってデータの散らばり方を分析する方がデータ全体の傾向を比較的正確に捉えていると考えられます。

偏差値

最後にデータの標準化の1つの応用として偏差値を見てみましょう。これは試験の難易度や受験者によって平均点が変わる状況において、受験者全員の得点分布における自分の得点の位置を示した値として広く用いられています。データの標準化では「平均0、標準偏差1」の分布になるように変量を変換したのに対し、偏差値は「平均50、標準偏差10」の分布になるように変量を変換します。
つまり、下記の計算式により偏差値を求めています。

$$
偏差値 = 50 + \frac{得点 - 平均点}{標準偏差} \times 10
$$

前回の記事で使いました数学と情報の小テストのデータで偏差値を求めてみると次のようになります。

図6: 数学と情報の小テストにおける偏差値

セルE3に = 50 + 10*(B3-$K$9)/$K$13 を入力して、セルE4~E12にコピーします。情報についても同様です。
数学の小テストのように多くの人が平均点付近の点数の中で、高得点をとると偏差値が高くなるということですね。

ちなみに、都道府県別面積のデータで北海道の面積の偏差値を求めたら約115.2になりました。偏差値100超えです。北海道は本当に広いですね。

終わりに

2回にわたって分散と標準偏差について記事を書いてみました。
数学の授業を情報の授業の有機的なつながり、そして高等学校のカリキュラム全体において生徒のデータリテラシーを育んでいく教育、このようなことに興味をお持ちのみなさまへの情報共有として、お役立ちできましたら幸いです。
今回も最後までお読みいただきありがとうございました。
次回からは相関分析について書いてみたいと思います。