見出し画像

超幾何分布の期待値と分散

今回もいつもと同じように期待値と分散を導出します。確率分布の式も併せて、それぞれ以下の式で表せます。AとB合わせて$${N}$$個でAが$${k}$$個、Bが$${N-k}$$個あります。ここから$${n}$$個取り出したときに含まれるAの数が$${x}$$個になる確率分布に従うとします。

$$
P(X)=\dfrac{\dbinom{k}{x}\dbinom{N-k}{n-x}}{\dbinom{N}{n}}    max(0,n-(N-k))\le x\le min(n,k)\\
E(X)=n\dfrac{k}{N}\\
V(X)=\dfrac{nk(N-k)(N-n)}{N^2(N-1)}
$$

期待値の導出

期待値の導出を行います。例によって定義から考えます。

$$
\begin{split}
E(X)&=\sum_{x=0}^n xP(X)\\
&=\sum_{x=0}^n x\dfrac{\dbinom{k}{x} \dbinom{N-k}{n-x}}{\dbinom{N}{n}}\\
\end{split}
$$

$${x=0}$$の時は$${E(X)=0}$$なので無視。その条件のもとで以下のことが成り立つ。

$$
\begin{split}
\dfrac{\dbinom{k}{x}}{\dbinom{N}{n}}&=\dfrac{\dfrac{k!}{x!(k-x)!}}{\dfrac{N!}{n!(N-n)!}}\\
&=n\dfrac{k}{N}×\dfrac{\dfrac{k-1!}{(x-1)!(k-x)!}}{\dfrac{N-1!}{(n-1)!(N-n)!}}\cdots(*)\\
\end{split}
$$

なので

$$
E(X)=n\dfrac{k}{N} \sum_{x=1}^n x\dfrac{\dbinom{k-1}{n-1} \dbinom{N-k}{n-x}}{\dbinom{N-1}{n-1}}\\
$$

となり、$${Σ}$$の中身が超幾何分布の形をしているので$${n\rightarrow \infty}$$とするとすべて足したとき$${1}$$になります。
よって

$$
E(X)=n\dfrac{k}{N}
$$

確率密度関数の総和が$${1}$$になる性質を使う場面は多そうですね。

分散の導出

幾何分布の時と同様に$${V(X)=E(X(X-1))+E(X)-(E(X))^2}$$を用いて考えます。$${E(X)}$$は導出済みなので$${E(X(X-1))}$$を導出していきます。期待値の導出に登場した(*)も使用します。

$$
\begin{split}
E(X(X-1))&=\sum_{x=0}^n x(x-1)P(X)\\
&=\sum_{x=0}^n x(x-1)\dfrac{\dbinom{k}{x}\dbinom{N-k}{n-x}}{\dbinom{N}{n}}\\
&=n\dfrac{k}{N}\sum_{x=1}^n x(x-1)\dfrac{\dbinom{k-1}{x-1}\dbinom{N-k}{n-x}}{\dbinom{N-1}{n-1}}\\
&=n(n-1)\dfrac{k(k-1)}{N(N-1)}\sum_{x=2}^n x(x-1)\dfrac{\dbinom{k-2}{x-2}\dbinom{N-k}{n-x}}{\dbinom{N-2}{n-2}}\\
&=n(n-1)\dfrac{k(k-1)}{N(N-1)}
\end{split}
$$

これを$${V(X)=E(X(X-1))+E(X)-(E(X))^2}$$に代入すると

$$
\begin{split}
V(X)&=E(X(X-1))+E(X)-(E(X))^2\\
&=n(n-1)\dfrac{k(k-1)}{N(N-1)}+n\dfrac{k}{N}-n^2\dfrac{k^2}{N^2}\\
&=\dfrac{nk(N-k)(N-n)}{N^2(N-1)}\\
\end{split}
$$

となって導出ができました。超幾何分布はバイオインフォマティクスでよく出てくるGO Enrichment Analysisで使われます。何か特定のものが変動しているかどうかを見たい場合に役に立ちそうだなぁと思っています。専門がシステムゲノム学なのであくまで予想ですけど…

参考


この記事が気に入ったらサポートをしてみませんか?