パラレル中1_統計と確率(#4)
1.はじめに
この記事は自分の考える、大学を「講義、実験、研究、議論が行える地域の図書館」のような存在にするという考えが実現したパラレルワールドを前提として作成しました。
数学を知る上では参考になると思いますが、受験にとってはマイナスになるので高校受験生は見ないほうが良いです。
2.新しい考え方
(1)データと代表値
人や物などの特性を数量的に表すものを変量といいます。調査などで得られた変量の観測値や測定値の集まりをデータ、データの個数をデータの大きさといいます。
データは色々散らばっています。データ分布(データの散らばり)の中心の位置を表す数値を代表値といい、平均値、中央値、最頻値などがあります。
またデータ分布を棒グラフで表したものをヒストグラムといいます。
小学校範囲で学んでいる内容については以下を参照してください。
・平均値
・中央値、最頻値、ヒストグラム
平均値は、データがすべて同じ値だったと仮定したときの値とも言えます。
平均値をxとすると、(データの個数)・x=(データの総和)とみることも可能です。
(2)平均絶対偏差(MAD)
平均値からの散らばりを数値化するために、(平均値ーデータの値)を足していく方法があります。ただ+2のズレと(-2)のズレを足すと消しあい、ばらついていないことを示してしまいます。
そこで(平均値ーデータの値)の絶対値を取って、それらを足していき、データの個数による差をなくすためにデータの個数で割ったものを平均絶対偏差(MAD)と言います。
平均絶対偏差=[(平均値ーデータの値)の絶対値の総和] / [データの個数]
(3)四分位数と箱ひげ図
平均値や中央値などの1つの値だけでデータを表すと、データのばらつきの違いが分かりにくい場合があります。それを図示したものを箱ひげ図と言います。
箱ひげ図について話す前に、中央値の求め方を一度復習します。
中央値:データを小さい順に並べたときの中央の値のこと
データ数が奇数個の場合は中央の値、偶数個の場合は中央の両隣の値の和を2で割ったものが中央値となります。
次に四分位数の求め方を説明します。
データを小さい順に並べ、中央値を境に下図のように2つの部分(赤丸と青丸)に分けます。
元の中央値を$${Q_2}$$、Aの中央値を$${Q_1}$$、Bの中央値を$${Q_3}$$と呼びます。この$${Q_1}$$~$${Q_3}$$はデータをそれぞれ4分割(25%)する数で、四分位数といいます。
この四分位数、最小値、最大値を箱とヒゲ(線)で見える化した図を箱ひげ図といいます。
データの散らばりを数値化したものは以下の通りです。
・範囲(レンジ)<全体の幅>:最大値ー最小値
・四分位範囲<箱の幅>:$${Q_3}$$ー$${Q_1}$$
・四分位偏差<箱の幅の半分>:($${Q_3}$$ー$${Q_1}$$)/ 2
これらの値が大きいほど散らばりの度合いも大きいといえます。
(4)データ分布の様子と箱ひげ図
下図にヒストグラムと箱ひげ図を書きました。左に偏った分布(「右裾が長い」もしくは「右に歪んだ」分布ともいう)では箱が左側に、右に偏った分布(「左裾が長い」もしくは「左に歪んだ」分布ともいう)では箱が右側に偏ることが分かります。
また左右対称な分布の場合は、箱は中央に来ます。
3.使用例
(1)データと代表値
(例)「データ:1 , 3 , 0 , 6 , ? 」の平均が3の時、?はいくつでしょうか。
(答え)
平均=$${\frac{1+3+0+6+?}{5}}$$=3 $${\frac{10+?}{5}}$$=3
10+?=15 ?=5
(例)7匹の魚を釣って体長を測定し、平均値と中間値を求めました。
7匹の魚の体長はすべて異なり、15cmから33cmの間でした。
ある日データを確認していると最大の体長が33cmではなく、88cmであることが分かりました。平均値と中間値はどのように変わるでしょうか。
(答え)
平均値:全部のデータの総和が大きくなるので、平均値は増える
中間値:一番大きいデータだけ変わるので、中間値は変わらない
(2)平均絶対偏差(MAD)
(例)以下のようなデータがあるときのMADを求めて下さい。
データ:0.9 , 0.5 , 0.3 , 1.1
(答え)
平均=$${\frac{0.9+0.5+0.3+1.1}{4}}$$=0.7
各種データと平均値の差の絶対値:
0.9-0.7=0.2 0.5-0.7=-0.2⇒0.2 0.3-0.7=-0.4⇒0.4 1.1-0.7=0.4
MAD=$${\frac{0.2+0.2+0.4+0.4}{4}}$$=0.3
(3)四分位数と箱ひげ図
(例)以下のようなデータがあるとき、以下の問いに答えてください。
データ:12 , 15 , 15 , 17 , 19 , 19 , 20 , 22 , 24
①最小値、最大値、$${Q_1}$$、$${Q_2}$$、$${Q_3}$$を答えてください。
②「x以上のデータは、データ全体の75%である」 このxに当てはまる数を答えてください。
➂四分位範囲を求めてください。
(答え)
①12(最小値) , 15 , 15 , 17 , 19(中央値)= $${Q_2}$$, 19 , 20 , 22 , 24(最大値)
中央値で2つに分けて
12 , 15 , $${Q_1=15}$$ , 15 , 17 と
19 , 20 , $${Q_3=(20+22)÷2=21}$$ , 22 , 24 となる。
② $${Q_1=15}$$がデータの25%の位置にあるので、15以上のデータがデータ全体の75%を占める。
➂四分位範囲=$${Q_3}$$ー$${Q_1}$$=21-15=6
(4)データ分布の様子と箱ひげ図
(例)読書のため6冊の本を買い、それぞれのページ数を調査しました。ページ数は「584,201,255,44,312,334」でした。このデータを度数分布表にし、ヒストグラムで表します。
黄色の枠の数字を以下のように考えて計算しました。考え方は正しいでしょうか。
「データ数が6なので、分からない黄色の枠の数字をxとして度数を足していき、1+0+2+x+0+1=6 x=2」
(答え)
正しい
(例)以下のラインプロットのデーター分布はどちらに「歪んで」いますか。
(答え)
左に偏った分布=「右に歪んだ」分布
4.カーンアカデミーの参照範囲
世界大学ランキングで上位を占める大学が多い米国のサイトである、カーンアカデミーの該当範囲を記載しています。
〇 6th grade
unit11
〇 Integrated math 1
unit10