統計やAIで宝くじ(ミニロト)を予想してみたいと思う~ナンバー偏り編~

はじめに

私の父は宝くじが好きでいつも研究していました。AIや統計的手法で予想できたら面白いんじゃないかなーと父と会話をしたことがきっかけでやってみようと思いました。統計的にどんな特徴があるのか、今回は出現ナンバーの頻度を考察をしていきたいと思います。

結論

結論ですが、ミニロトにの出現頻度に偏りはありませんでした。当たり前の結論がで残念です。お金持ちにはなれません。頻度を定量的に評価すると”偏っていない”とした場合の確率が25%ありますので、75%は偏っていると判断できるわけですが、25%は4回に1回なのでそこそこ大きな確率なので優位な差はないと判断もできますね。

今後の課題

次回はみんな大好き?な引っ張り数字について検証していこうかと思います。引っ張り数字とは、ざっくりいうと、出現したナンバーがでると次回にも同じナンバー出やすい??らしいという現象があることが噂されていますので、これについて検証していきたいですね。

使うデータ

対象調査宝くじ:ミニロト
1999年4月13日の第一回の宝くじの番号から2020年8月25日の第1091回の宝くじの番号を集計しました。集計方法についてはとりあえづ頑張って集めました!

ミニロトとは・・・

●1等の当せん金は、約1,000万円(理論値)
●抽せん日は毎週火曜日
●価格は1口200円
●原則1年中いつでも購入できます!

「ミニロト」は1~31の31個の数字の中から、異なる5個の数字を選んで購入する、「数字選択式宝くじ」です。

ミニロト
https://www.mizuhobank.co.jp/retail/takarakuji/products/miniloto/index.html
参照2022/11/17

ミニロトの期待値は?

https://www.mizuhobank.co.jp/retail/takarakuji/products/miniloto/index.html

↑のサイトを参考に期待値を出してみる
$$
10000000円×1/169911+150000円×5/169911+
10000円×125/169911+1000円×3250/169911
=89.8円
$$
となった。
当たり前ですが、期待値は一口の購入200円を下回りますね。期待値を上回ってしまっているのでやはり厳しいと言わざるを得ないです。

数値の偏りはあるか?

1999年4月13日の第一回の宝くじの番号から2020年8月25日の第1091回の偏りがないか確認してみます。下のグラフは横軸にナンバー、縦軸に何回数字が出たかを示したグラフです。

ぱっと見では正直このグラフを偏っているかがよくわかりません。そこで、今回は統計でよく使われるχ2乗検定を行い、このナンバーの出方に偏りがあるのかを見てみようと思います。χ2乗検定は出たばらつきがランダムっぽく偏りが出ていないか視るために使います。ちなみに今回はχ2乗検定についての詳細は省きます。ここで、χ2乗について記載していると文章がかなり冗長になってしまいます。結論だけサクッと知りたいと思う方もいると思うので、今回はまあこんなものがあるんだな程度で済ませていただきたいです。

やり方は以下になります

そこでまずは帰無仮説と呼ばれる仮説を立てます。
帰無仮説を”出ている数字は偏りがない”ということにしておきます。
帰無仮説を否定することによって、仮説が正しくない。対立仮説、すなわち”出ているナンバーが偏っている”ということを証明したいということです。高校数学でいう背理法の考え方です。ここで、偏っていない、偏っているは確率で考えます。これは5%で区切ることが多いです。これは有意水準と呼ばれています。帰無仮説である偏っていないことが5%以下ならば、帰無仮説を棄却するということになっています。

ばらつきの偏りについてはよく、χ2乗検定を使用します。χ2乗は以下で計算されます
$$
χ^2=Σ(実測値-期待値)^2/期待値
$$
昔はこの値を計算して表をみて判断するのですが、今はスプレッドシートがあるので、スプレッドシートでやってしまいましょう!
下の表は実際にスプレッドシートにてχ2乗を計算して確率を計算した様子です。

χ2乗検定の様子

上の表について簡単に解説します。
実測値は1091回の試行中に何回ナンバーが検出されたか?です。期待値は

$$
期待値=1091×5/31
$$

で計算されています。
後は期待値と実測値の範囲を指定すれば、確率を出してくれます。
ざっと0.25という確率がでました。25%です。これは有意水準5%より確率が高いので、この帰無仮説は棄却できず、偏っていないこともわかりました。めでたしめでたしです。
この結果からわかることは、全体として偏っておらず、、全体の傾向から、この数字が多いから、次もこの数字が出るということもできないということがわかりました。素晴らしいです。χ2乗検定という比較的簡単な手法でこのようなそこそこいい感じの結果をだすことができとても素晴らしいですね!


この記事が気に入ったらサポートをしてみませんか?