見出し画像

#2 平均値、中央値を買えば当たるのか

ロト7に限らず、私がデータ分析をする上ではじめに行っていることは、データベースの項目とそこに入ってくる数字の意味を理解することです。

ロト7の場合、本数字は毎回1から37までの数字の中から7個選ばれますが、私がまとめているデータベースの本数字①~⑦をそれぞれの合計を出してみます。

表1

先日作成したデータベースの下に合計、平均、中央値の3行を追加しました。範囲はすべて第1回から555回までになっています。

合計、平均、中央値で使用したExcel関数はこちらです。※すべて本①
=SUM(C3:C557)、=AVERAGE(C3:C557)、=MEDIAN(C3:C557)になりますこのあたりは前回説明したExcelでできることの『①数字を集計する。』に該当します。平均と中央値の違いは合計を個数で割った平均と、全個数を数値順で整列し、真ん中にくる数値です。

例:①⑤⑩の平均値と中央値
平均値 1+5+10 ÷ 3 = 8、中央値 5
平均値は突出した値があると全体を引き上げてしまうので、単語のニュアンスと出てくる意味合いが異なってしまいます。

さて、ロト7でのそれぞれの数値を見てみます。
今回データベースで作成している合計の値について何の意味もありません。
小さい順に①から並べているので、本①よりも②が、②よりも③が大きいことが分かりました。と言ってもデータベースを作る段階で分かりきっていることですが、意味がないことを理解していることも大切です。
合計を比較するためには、違ったデータのとり方を考える必要がありそうです。

次に平均ですが、本数字の7個はそれっぽい数字がならんでいます。
最後に中央値ですが、こちらもそれっぽい数字がならんでいます。

これまで555回行われてきていて、平均値、中央値の数字的な意味とは何でしょうか。よくデータ分析を行っていて、合計や平均、中央値から分かることはデータの可視化を行う上では必要だと思いますが、過去のデータに基づいてはいるが結果をなぞっているに過ぎないこと。
分析の究極は制度の高い予測だと思います。そこを目指していきたい。

過去において平均値、中央値がそのまま本数字で7個そろったことは一度もありません。(事実)

第2回からこの記事を書いている第555回が終了している時点まで、推移していく平均値、中央値どちらも検証しました。この事実を踏まえた上で、本数字を7個当てるための仮設を立て検証していきます。

今回、データベースの表に追記した中で本数字とボーナス数字の色を濃くしている部分がありますが、それは次回に。


この記事が気に入ったらサポートをしてみませんか?