見出し画像

#6 データのばらつきを調べる

このデータはばらついているなぁ、なんて普段は会話で使用することはありません。では、なぜばらつきを調べる必要があるのかと言うと、#4で少しだけ触れましたが、平均や中央値を見ても実態はわからないからです。
その実態を知るためにばらつきを知る指標が『分散』と言います。

分散を調べるには、それぞれの値が平均とどれくらい離れているのかを調べるのですが、平均よりも大きい場合も小さい場合もあります。

表①

表①はロト7データベースより、本数字①~⑦の合計で最頻値となる126でフィルタをかけたものです。この記事を書いている第558回が終了時点で合計値126になったのが14回ありました。

合計値が同じと言うことは、平均はもちろん全14回とも同じく18になります。じゃあ、この14回は同等と見なしていいのかと言うと、否ですね。
ちなみに、558回終了した時点で同じ組み合わせ出現していないと言うことは、この14個もそれぞれ異なります。

データのばらつきを調べるために、初めにすべきことは平均との差を調べることです。平均との差のことを『偏差』と言います。平均は18と分かっていますのでそれぞれの偏差を求めると下の表になります。

平均との差なので上振れも下振れもしますが、この表の回ごとに合計を出すといくらになるでしょうか。勘のいい人はすぐに気が付くかも知れませんが、ひっかけ問題ですね。答えはどの回も0です。

表②

それでは、どうやって調べるのか。プラスとマイナスが混ざっている数字を合計すると0になってしまうので、出てきた値を2乗します。2乗すると、プラスもマイナスもプラスの数字になります。合計をデータの個数(本数字①~⑦までなので7)で割ると『分散』が求められます。

表③

さて、データのばらつきを見る分散を求めたところで、
第142回の55.14と第100回の180.00の数字の違いと言われても難しいです。
第100回は1から36まで使っていますし、2や35と両端に偏った数字が出ている印象はあります。他の回と比べてみても第100回の分散が一番大きく出ていると言うことは、大きくなるほどばらつきがあると言えそうです。

表④

分散で求めた数字は、今回のデータであれば合計126。平均18。のデータを使っているにも関わらず出てきた数字が大きいです。意味も分かりにくいです。はじめに平均との差を2乗しているので、この数字を元に戻してみるとどうなるのでしょうか。2乗された数字を元に戻すには、中学校で習いましたが平方根と言う単語を覚えているでしょうか。ルートです。
ルート2が1.41421356(一夜一夜に人見頃)、3が1.7320508(人並みにおごれや)あたりは覚えたかもしれません。つまり、2乗すると2になる、3になる数字が平方根です。

55.14と180の平方根を求める。と言っても平方根を求めるのは簡単ではありません。第15回の分散100の平方根は10とすぐに分かりますが、Excel関数を使えば簡単に求めることができます。
表③にあてはめると、180の平方根=SQRT(L9) これで答えは13.42と求められます。SQRT関数は使う頻度が多くないと思いますので、Excelで平方根・ルートの計算ができる。とだけ頭の片隅に記憶しておけば、必要に迫られたときに検索して調べましょう。

表⑤

分散に対して平方根の数字を求めましたが、実は『標準偏差』と言うのが今回求めた数字になります。分散の平方根が標準偏差です。
標準偏差で求められた数字の意味は、ばらつきの多い少ないだけでなく、平均を中心として、標準偏差の差の範囲に多くのデータが含まれている。
詳しく言いますと、
平均±標準偏差の値1個分の中に約68%のデータが含まれる。
平均±標準偏差の値2個分の中に約95%のデータが含まれる。
ようです。※前提条件としてデータが正規分布になっていること。

第100回の場合、
(18-13.4) < 18 < (18+13.4) ⇒ 4.6 ~ 31.4の間に含まれている場合は約68%。
(18-26.8) < 18 < (18+26.8) ⇒ -8.8 ~ 46.8の間に含まれている場合は約95%。約95%の方はロト7のルールをはみ出してしまっていますね。

今回はデータのばらつきについて、『分散』『標準偏差』についてロト7の表を見ながら計算をして出していきましたが、実は分散と標準偏差もExcel関数ですぐに求めることができます。

分散 =VAR.P(D4:J4) 、標準偏差 =STDEV.P(D4:J4) 

表⑥

表⑤で求めた値と表⑥で同じ値になっているのが確認できますでしょうか。
今回、なぜ分散や標準偏差を求めたかと言いますと、本数字①~⑦に対して平均や中央値、最頻値などは分析をする必要に迫られた場合に皆さんやられると思いますが、分散や標準偏差まで掴んでおけば、データを見て大まかな傾向を掴むところまで理解することができます。

ロト7の当せん番号を求めるには大まかすぎて必要無いかもしれませんが、それが分かっただけでも収穫と言うことで。
今回は以上です。

この記事が気に入ったらサポートをしてみませんか?