見出し画像

データの分布

データの活用の目的は、確実性の高い仮説や予想を立てることにある、と私は考えている。ゆえに、仮説、予想、確実性という観点からデータの活用について見ていく。

あらかじめ断っておくが、以下でする説明の流れや見方、考え方は、データの分布の一般的な説明とは多少異なるかもしれない。でも個人的には割と妥当な説明だと考えている。

度数の分布

ある中学校の第一学年の生徒100人のハンドボール投げの記録が以下のようになったとする。

$$
\begin{array}{|c|}\hline16,12,27,18,18,23,22,24,15,13\\26,12,24,24,15,10,18,15,18,18\\18,18,15,16,21,11,12,20,26,27\\16,20,25,21,18,18,23,16,18,24\\16,18,14,18,14,14,18,15,14,18\\23,23,23,14,14,21,21,27,25,23\\20,22,27,18,18,14,18,18,27,24\\15,25,15,24,23,21,25,25,15,16\\24,11,25,23,13,13,20,15,20,26\\18,20,25,22,23,23,21,22,16,22\\\hline\end{array}
$$

さあ、このデータからどうやって、確実性の高い仮説および予想を立てるか。それが問題である。

問題
 この中学校の第一学年の生徒の中から一人連れてきてハンドボール投げをさせたとき、その記録は何mになると予想できるか。

データの数が多い値が一番確実性が高そうである。そこで、値ごとのデータの数を比較するために、まずはそれぞれの値をとるデータの個数について整理する。

データの値を細かく分けて数えるとめんどくさいので、近い値はまとめて数えることにする。まとめて数える値の範囲を階級という。また、特定の値をとるデータの数を度数という。

$$
\begin{array}{cc}\hline\text{階級[m]}&\text{度数[人]}\\\hline\scriptsize以上\kern{1.3em}未満&\\\kern{0.5em}9\sim12&3\\12\sim15&13\\15\sim18&16\\18\sim21&25\\21\sim24&21\\24\sim27&17\\27\sim30&5\\\hline\end{array}
$$

階級ごとの度数を示した、上のような表を度数分布表という。

階級の真ん中の値をその階級の階級値という。例えば、9以上12未満の階級の階級値は、9と12のちょうど中間の数

$$
\frac{9+12}2=10.5
$$

である。

度数を縦軸に、階級を横軸にとってグラフで表すと、データの分布の様子が視覚的に捉えられるようになる。

ハンドボール投げの記録のヒストグラム

上のように階級ごとの度数をグラフで表したものをヒストグラムという。

これを見ると、18m以上21m未満のデータが最も多いことがわかる。だから、その階級値19.5mが、この中学校の第一学年の生徒から一人連れてきたときのハンドボール投げの記録の予想となる。

代表値

データの個数が最も多い値を予想として採用したが、そのような値には名前がついていて、最頻値さいひんちという。「最も頻繁にとる値」という意味である。

一学年全体の中から一人を連れてきて記録をとったわけだが、この一人を学年全体の代表者と考えることができる。そして、その予想として立てた値は学年全体のデータを代表する値だと考えられる。

データ全体を代表する一つの数値を代表値という。代表値の例として、先程出てきた最頻値が挙げられる。

代表値にはもういくつかの種類がある。以下で最頻値の他の代表値を二つ紹介する。

最頻値は個数の最も多いデータの値を採用し、他のデータの値は全く無視している。いわば多数決である。しかしこれは数の暴力であり、データ全体を考慮していないんじゃないかと批判されることもある。少数派の意見も聞くべきだと。

そこで、少数派の意見もきちんと取り入れた代表値を考えることにする。

どう取り入れるかについてだが、ここでは割合を用いることにする。割合に応じて意見(データの値)を代表値に反映させる。

相対度数

ここでまず階級ごとの度数の全体に占める割合を考える。度数の合計に対する度数の割合を相対度数といい、以下の式で求められる。

$$
相対度数=\frac{度数}{度数の合計}
$$

相対度数の分布の表は以下のようになる。

$$
\begin{array}{cc}\hline\text{階級[m]}&\text{相対度数}\\\hline\scriptsize以上\kern{1.3em}未満&\\\kern{0.5em}9\sim12&0.03\\12\sim15&0.13\\15\sim18&0.16\\18\sim21&0.25\\21\sim24&0.21\\24\sim27&0.17\\27\sim30&0.05\\\hline\end{array}
$$

各階級値に割合(相対度数)をかけて総和をとったものを代表値として採用する。これを期待値または平均値という。データからそのまま平均値を求める場合、個々のデータの度数を1として考えればよく、相対度数はすべてのデータにおいて$${\frac{1}{度数合計}}$$となるから、平均値は結局、データの値に$${\frac{1}{度数合計}}$$をかけたものの総和となる。度数合計はデータの個数であるから、すなわち、

$$
平均値=\dfrac{データの値の合計}{データの個数}
$$

となる。このとき、

$$
\small{データの値の合計=平均値×データの個数}
$$

となるから、平均値は、すべてのデータが同じ値をとるように平らに均したときの値だと考えることができる。

平均値はすべてのデータの値を用いて算出される代表値であるから、どのデータに対しても公平な予想ができる。それはいいことのように思えるかもしれないが、それが欠点となることもある。

平均値は計算によって求められる値であるため、実際のデータの値とは異なる場合がある。つまり、平均値をとるようなデータが存在しないがある。その場合、平均値をもとにした予想が的中することはない。近い値をとることはあっても、ぴったり同じになることがないのであれば、それは本当にいい予想と言えるのだろうか。

さて、疑問はいったん脇に置いておいて、最頻値と平均値の他にもう一つ、代表値を紹介しよう。

データを小さい順に並べたときに中央にくるデータの値を中央値という。

データの個数が奇数の場合は中央にくるデータが一つなので、そのデータの値を中央値とする。データの個数が偶数の場合は中央にくるデータが二つあるので、それら二つのデータのちょうど中間の値を中央値とする。

例えば、中央にくるデータが18と20の二つであった場合の中央値は、

$$
\frac{18+20}2=19
$$

となる。

中央値が予想として優れているかどうかはデータの分布によるが、一般にデータの分布は中央に集中するため、ある程度使える予想にはなるだろう。

これでそれなりに予想を立てられるようになったが、次に気になるのは予想の確実性や精度である。

予想がどのくらい当たるのか、予想と実際の値の差はどのくらいになるのか。これはデータの分布を見ることで判断できる。

例えば、予想周辺の値をとるデータの個数がデータ全体の9割を超えていれば、もうほぼ確実に予想通りの値をとるだろう。逆に、予想周辺の値をとるデータの個数がデータ全体の2割程度しかなく、データがばらばらな値をとる場合、予想が的中するとはあまり期待できない。

予想が当たりやすいかどうかは、予想周辺にデータが密集しているか、あるいは全体的に散らばっているかで判断できそうである。

そこで、予想の確実性と精度の指標として、データの散らばり具合を考えることにしよう。

データの散らばり

データのとる値がどこからどこまでか、これを範囲といい、データの最大値と最小値の差で計算される。

$$
範囲=最大値-最小値
$$

範囲を調べれば、データがどのくらい散らばっているかの参考にはなる。範囲が狭ければ、データが密集していることはわかる。でも、範囲が広い場合には、その中のデータがどう分布しているかわからないので、密集しているか散らばっているかはわからない。

中の様子をもう少し詳しく知りたいので、次のような工夫をする。

全てのデータを小さい順に並べて四つに等しく分ける。このとき、三つの区切りの位置にあるデータの値を四分位数という。小さい方から第1四分位数、第2四分位数、第3四分位数といい、それぞれ順に$${Q_1,Q_2,Q_3}$$で表す。

四分割したときの中央付近の二つの区分の範囲、すなわち第3四分位数$${Q_3}$$と第1四分位数$${Q_1}$$の差を四分位範囲という。

$$
四分位範囲=Q_3-Q_1
$$

四分位範囲は、中央付近に分布する半数のデータの範囲である。これを使えば、データがどのくらい散らばっているかがある程度判断できる。

箱ひげ図

視覚的な図に整理すると、散らばり具合の判断がしやすい。そこで、最小値、第1四分位数、第2四分位数、第3四分位数、最大値の五つの値を用いて以下のような図を作る。

箱ひげ図

上のような図を箱ひげ図という。箱ひげ図は簡単で場所を取らない図であるから、並べて書くことができ、比較しやすい。

しかし、一つの集団のデータの分布の様子を詳しく知りたい場合は、ヒストグラムを使った方がいい。箱ひげ図だと箱やひげの中の分布はわからないが、ヒストグラムであれば、階級を細かくとれば分布の様子が細かくわかるからである。

データの散らばりについての話は分散や標準偏差へと続くが、今はここで止めておこう。

次は予想の確実性の話を掘り下げて書く予定である。それはつまり、確率について書くということである。

いただいたサポートは書籍購入に使いたいと思います