見出し画像

【7研アドカレDay15】 スカウトキャラバンガチャの謎!?~ガバガバ確率推定~

はじめに

この記事は7研連合アドカレ企画2022のDay15の記事です。
前日の記事は弊会のたかはしさんが書かれています。ぜひそちらもどうぞ

筑ナナのmolilyと申します。本当は好きな漫画の話やきららアニメの話がしたかったのですが、ナナシスの話をします。
この記事では表題通りガチャの確率を推定します。が、数年前に受けた確率統計の授業を全て忘却してしまったので、ガバガバ推定です。間違ってても怒らないで…

スカウトキャラバンガチャって何??

流石に支配人の皆さんは知っていると思いますが念のため説明すると

  • フレンドポイントで引けるガチャです

  • 完全無料で引けます

  • デイリーミッションでお世話になるあれです

スカウトキャラバンガチャの謎??

確率が表記されていない!!!!

有償ガチャの場合、確率の表示が原則となっているのですが、完全無料で引けるスカウトキャラバンガチャは確率を記載する必要がないんですね~

というわけでスカウトキャラバンガチャの確率を推定してやろうと思います。

データ

まずはデータ集めです。
フレンドポイントが2820000ほどあったので、これで14100連を行います

いっぱいあるね♡

集計結果

  • B : 13385回

  • S : 612回

  • G : 103回

ヒェ〜、集計に2時間かかったった
ちなみに全部持ってるカードでした
7年もプレイしてると流石に目新しいカードは引けませんね

点推定

最初は値そのものを推定する点推定からやっていきます

最尤推定

あるレアリティRの排出率が$${p}$$であるとします。また、0/1(出ない/出る)を取る確率変数について$${x}$$という値が観測されたとします。このときの確率は

$$
p^x(1-p)^{1-x}
$$

で表されます。このような試行を$${n}$$回行った時、$${x_1,\dots,x_n}$$という値が観測されました。このときそれぞれの試行を独立とみなせば同時確率は

$$
\prod_{i=1}^{n}p^{x_i}(1-p)^{1-x_{i}}
$$

で表せます。ここで$${k=\sum_{i=1}^nx_i}$$とします。$${x_i}$$はレアリティRが出た場合に1になるため、これらの総和である$${k}$$はレアリティRが出た回数を意味しています。

$$
\prod_{i=1}^{n}p^{x_i}(1-p)^{1-x_{i}} = p^k(1-p)^{n-k}
$$

また、この同時確率を$${p}$$の関数$${l(p)}$$とみなします

$$
l(p)=p^k(1-p)^{n-k}
$$

実際にガチャをn回引いてレアリティRがk個出た場合、同時確率$${l(p)}$$を最大化するような$${p}$$が最も尤もらしいパラメータであると言えます。

それでは$${l(p)}$$を最大化するような$${p}$$を求めてみましょう。

$$
\frac{dl}{dp} =kp^{k-1}(1-p)^{n-k}-(n-k)p^{k}(1-p)^{n-k-1}=0 \\
k(1-p)-(n-k)p =0 \\
\therefore p =\frac{k}{n}
$$

よって、推定される確率は$${p =\frac{k}{n}}$$と表せることがわかりました。レアリティRが排出された数を引いた回数で割ればいいので非常に直観的な結果ですね。

結果

先ほど求めた式を用いてフレポガチャの確率を求めてやると次のようになります

  • B : 94.93%

  • S : 4.34%

  • G : 0.73%

Gの確率1%切ってるじゃん!!?????

ちなみに通常のガチャ(7th Audition ガチャ)の確率は次のようになってます

  • P    : 3.000%

  • G+ : 4.000%

  • G    : 7.000%

  • S    : 86.000%

こう見るとフレポガチャのGの確率のやばさが際立ちますね
まあ、フレポなんて腐るほどあるんでこんなもんか…

区間推定

点推定では確率そのものの値を求めましたが、今度は確率が属するであろう区間を求めます。

中心極限定理

区間推定では中心極限定理を利用します。

独立で同一な分布に従う確率変数$${X_{i\in\{1,\dots,n\}}}$$について

$$
\bar{X} = \frac{1}{n}\sum_{i=1}^nX_i \\
Z=\frac{\bar{X}- \mu}{\sqrt{\sigma^2/n}}
$$

を定義します。(ただし、$${\mu}$$と$${\sigma^2}$$はそれぞれ平均と分散)
$${\bar{X}}$$は標本平均で$${Z}$$は標本平均を標準化した確率変数ですね。
中心極限定理は雑に言うとnが十分に大きいとき$${Z}$$が標準正規分布に従うという定理です。

推定

今回は出る/出ないの二択を考えるため確率変数は二項分布$${B(1;p)}$$に従います。この二項分布では$${\mu=p, \sigma^2=p(1-p)}$$となります。
また、$${\hat{p}}$$を標本平均とします。
このとき、$${Z}$$は次のようになります。

$$
Z = \frac{\hat{p}- p}{\sqrt{p(1-p)/n}}
$$

この確率変数$${Z}$$が従う分布は$${n}$$が十分に大きいとき中心極限定理により正規分布に近似することができます。今回は$${n=14100}$$なので$${n}$$が十分に大きいとみなしましょう。

求める区間は95%の信頼区間とします。
$${P(|Z|\leq\alpha)=0.95, \alpha=1.96}$$が成り立っているので

$$
\left|\frac{\hat{p}- p}{\sqrt{p(1-p)/n}}\right|\leq\alpha
$$

を解きます。一般的には$${p\approx\hat{p}}$$であることを利用して解くことが多いのですが、今回は別の方法でちょっと厳密に求めてみます。

$$
\left|\frac{\hat{p}- p}{\sqrt{p(1-p)/n}}\right|=\alpha
$$

これを変形すると

$$
(1+\beta)p^2-2(\hat{p}+\frac{\beta}{2})p+\hat{p}^2=0
$$

が得られます。ここで$${\beta\equiv\alpha^2/n}$$としました。
これを解くと

$$
p=\frac{(\hat{p}+\beta/2)\pm\sqrt{(\hat{p}+\beta/2)^2-(1+\beta)\hat{p}^2}}{1+\beta}
$$

となります。よって、信頼区間は

$$
\left[\frac{(\hat{p}+\beta/2)-\sqrt{(\hat{p}+\beta/2)^2-(1+\beta)\hat{p}^2}}{1+\beta},\frac{(\hat{p}+\beta/2)+\sqrt{(\hat{p}+\beta/2)^2-(1+\beta)\hat{p}^2}}{1+\beta}\right]
$$

になります。
計算くっっそ面倒です。おとなしく近似しておけば良かった…

結果

それでは諸々を代入して区間を求めると

  • B : $${[0.9458,0.9530]}$$

  • S : $${[0.0402,0.0469]}$$

  • G : $${[0.0060,0.0088]}$$

となりました
もう少し区間を狭めたかった感はあります。データがもう少し欲しいですね。
誰か代わりにやってみないか…?

終わりに

多分、スカウトキャラバンガチャのGの確率は0.7%くらいです(多分)

明日は京ナナのgakkakaさんの記事です。珍しくナナシスの話をしてくれるそうです。二日連続ナナシスの記事ですねっ!


この記事が気に入ったらサポートをしてみませんか?