見出し画像

超幾何分布の基礎

超幾何分布とは

 この確率分布は、有限個の要素を持つ集団(例えば、AとBの2種類の要素から成る集団)から非復元抽出(元に戻さない取り出し方)を行ったときに、抽出される要素のうち一方の要素(例えば、A)の出現回数を表現します。
 具体的には「袋の中にAが10個、Bが15個入っています。この中から5個取り出して3個がAである確率はいくつでしょう?」という問題においてAが取り出される個数(この例では3個)の部分を確率変数とした分布が超幾何分布に従います。
 一般化して式を示します。AとB合わせて$${N}$$個でAが$${k}$$個、Bが$${N-k}$$個あります。ここから$${n}$$個取り出したときに含まれるAの数が$${x}$$個になる確率分布は以下のようになります。

$$
P(x)=\dfrac{\dbinom{k}{x}\dbinom{N-k}{n-x}}{\dbinom{N}{n}}\\
max(0,n-(N-k))\le x\le min(n,k)
$$

難しく書いていますが、高校数学の教科書で扱うレベルの話なので一度理解すれば余裕だと思います。

例題

袋に赤玉が5個、白玉が8個入っている。ここから同時に5個取り出すとき、赤玉が3個含まれる確率を求めよ。

解答

超幾何分布の式に代入すると

$$
P(X=3)=\dfrac{\dbinom{5}{3}\dbinom{8}{2}}{\dbinom{13}{5}}=\dfrac{280}{1287}\simeq0.218
$$

ということで約21.8%となります。

超幾何分布のグラフ

グラフは以下のようになります。wikipediaから引用しています。あまり触れることもないので眺めるだけでOKです。

二項分布、ポアソン分布への近似

 超幾何分布は特定の条件下では二項分布、そしてポアソン分布に近似できる。
 超幾何分布の場合、非復元抽出なので1個取り出したあとにもう一回取り出すと確率は変わる。例えば全体の個数が10個、目的の要素が5個の場合、1回目取り出す確率は$${\dfrac{5}{10}}$$だが、1回目に目的の要素が取り出された場合2回目も取り出せる確率は$${\dfrac{4}{9}}$$になるためである。しかし全体の個数$${N}$$が十分大きい場合、この確率にあまり変化がない
 したがって、$${\dfrac{k}{N}=p}$$と置くと確率$${p}$$で$${n}$$回抽出する二項分布と同じ設定であるとみなすことができる。
ここまではイメージの話で、少し難解だが、数式による導出を試みてみる。(正直飛ばしても大丈夫)

$$
\begin{split}
\dfrac{\dbinom{k}{x}\dbinom{N-k}{n-x}}{\dbinom{N}{n}}&=\dfrac{\dfrac{k!}{(k-x)!x!}\dfrac{(N-k)!}{(N-k-n+x)!(n-x)!}}{\dfrac{N!}{(N-n)!n!}}\\
&=\dfrac{n!}{(n-k)!x!}\dfrac{k!}{(k-x)!}\dfrac{(N-k)!}{(N-k-n+x)!}\dfrac{(N-n)!}{N!}\\
&=\dbinom{n}{x}\dfrac{{}_kP_x×{}_{N-k}P_{n-x}}{{}_NP_n}\\
&=\dbinom{n}{x}\dfrac{k(k-1)…(k-x+1)}{N(N-1)…(N-x+1)}×\dfrac{(N-k)(N-k-1)…(N-k-n+x+1)}{(N-x)(N-x-1)…(N-n+1)}\\
&=\dbinom{n}{x}\prod_{i=0}^{x-1}\dfrac{k-i}{N-i}\prod_{j=0}^{n-x-1}\dfrac{N-k-j}{N-x-j}\\
\end{split}
$$

ここで、近似の条件である$${N\rightarrow\infty}$$をとると

$$
\lim_{N\to \infty}\dfrac{k-i}{N-i}=p  \lim_{N\to \infty}\dfrac{N-k-j}{N-x-j}=1-p
$$

であるので

$$
\dbinom{n}{x}\prod_{i=0}^{x-1}\dfrac{k-i}{N-i}\prod_{j=0}^{n-x-1}\dfrac{N-k-j}{N-x-j}=\dbinom{n}{x}p^x(1-p)^{n-x}
$$

となり二項分布と近似できることが示された。
また、二項分布において$${n\rightarrow\infty}$$をとるとポアソン分布に近似できることから、超幾何分布においても$${n\rightarrow\infty}$$かつ$${N\rightarrow\infty}$$の条件ではポアソン分布に近似できる。数理的な導出については以前の記事で示したのでそちらを参照いただきたい。

次回は超幾何分布の期待値・分散を取り上げます。次回の記事↓

参考


この記事が気に入ったらサポートをしてみませんか?