見出し画像

統計学実践ワークブック 第5章例題解説

例1

血液型の識別能力があると言えるかという問に対し「血液型を当てたとしても偶然の域を超えないから識別能力があると言えない」という結論に持っていく。学生は5人中4人正解したので、識別能力が全くない場合に4人以上正解する確率を求めてみる。
壺の中に10個の玉が入っており、5個は赤玉、残りは白玉としてこの中から非復元抽出で5個を取り出したときに赤玉の個数が4個だったときの超幾何分布の問題として考える。
$${M}$$個の赤玉と$${N-M}$$個の白玉の合計$${N}$$個の入った壺から非復元抽出で$${n}$$個取り出すときの赤玉の個数$${Y}$$の確率関数$${HG(M,N,n)}$$は

$$
P(y)=\frac{{}_MC_y×{}_{N-M}C_{n-y}}{{}_NC_5}\\
$$

$${M=5,N=10,n=5,y=4}$$を代入すると

$$
P(y)=\frac{{}_5C_4×{}_{5}C_{1}}{{}_{10}C_5}=\frac{25}{252}
$$

$${M=5,N=10,n=5,y=5}$$を代入すると

$$
P(y)=\frac{{}_5C_5×{}_{5}C_{0}}{{}_{10}C_5}=\frac{1}{252}
$$

よって$${\frac{25}{252}+\frac{1}{252}=\frac{26}{252}=0.103}$$となるので、全く識別能力がなくても4人以上正解する確率は10.3%となる。これを「識別能力がある」と結論づけるには不十分といえる。

例題

問5.1

(1)少なくとも1株見つかる確率を「1株も見つからない確率を全体から引く」という計算で導出する。
1株も見つからない確率は

$$
P(Y=y)={}_nC_0p^0(1-p)^n=(1-p)^n
$$

 よって、1株も見つからない確率は$${(1-p)^n}$$のため、少なくとも1株見つかる確率は$${β=1-(1-p)^n}$$

(2)$${log(1-p)≒-p,p=1/5000,β=0.98}$$より、(1)の式は下記に変形できる

$$
0.98=1-(1-p)^n\\
0.02=(1-p)^n\\
log(0.02)=log(1-p)^n=nlog(1-p)≒-np\\
-3.9=-np=-n/5000\\
n=3.9×5000=19500
$$

問5.2

超幾何分布の確率関数の公式より

$$
P(X=x)=\frac{{}_MC_x×{}_{N-M}C_{n-x}}{{}_NC_n}\\
=\frac{_{40}C_x×_{79-40}C_{25-x}}{{}_{79}C_{25}}\\
=\frac{_{40}C_x×_{39}C_{25-x}}{{}_{79}C_{25}}  ,   0≦x≦25\\
$$

問5.3

(1)0か1が出るベルヌーイ試行を9回行うものと捉える。

$$
E[X_i^2]=\sum{X_i^2}{P(X_i)}=0^2P(X_i=0)+1^2P(X_i=1)=P(X_i=1)
$$

$${p(X_1=1)}$$を求めるには、例えば白が6個・黒が3個の計9個の玉を並べたときに1番目に黒玉が来る確率を計算すればよい。

$$
p(X_1=1)=\frac{3×_8P_3}{_9P_4}=\frac{3×8×7×6}{9×8×7×6}=\frac{1}{3}
$$

$${i=2,3,4}$$の時も同様なので

$$
E[X_i^2]=p(X_i=1)=\frac{1}{3}
$$

(2)$${X_i,X_j}$$のどちらかが0であれば$${X_iX_j=0}$$となるので、両方とも1になる場合のみ考えれば良い。

$$
E[X_iX_j]=\sum{X_iX_j}{P(X_i,Xj)}=1^2P(X_i=1,X_j=1)
$$

(1)と同様に白が6個・黒が3個の計9個の玉を並べたときに1番目と2番目に黒玉が来る確率を計算する。

$$
p(X_1=1,X_2=1)=\frac{_3P_2×_7P_2}{_9P_4}=\frac{3×2×7×6}{9×8×7×6}=\frac{1}{12}
$$

$${i,j}$$が他の場合でも同じ計算になるので

$$
E[X_iX_j]=p(X_i=1,X_j=1)=\frac{1}{12}
$$

(3)

$$
V(\bar{X})=V(\frac{1}{4}\sum_{i=1}^{4}X_i)=\frac{1}{16}V(X_1+X_2+X_3+X_4)\\
$$

分散の性質$${V(aX+bY+c)=a^2V(X)+b^2V(Y)+2abCov(X,Y)}$$を利用して

$$
V(X_1+X_2+X_3+X_4)=\sum_{i} V(X_i)+\sum_{i≠j} Cov(X_i,X_j)\\
E[X_i]=\sum{X_i}{P(X_i)}=0・P(X_i=0)+1・P(X_i=1)=P(X_i=1)=\frac{1}{3}\\
V[X_i]=E[X_i^2]-(E[X_i])^2=\frac{1}{3}-(\frac{1}{3})^2=\frac{2}{9}\\
Cov(X_i,X_j)=E[X_iX_j]-E[X_i]E[X_j]=\frac{1}{12}-\frac{1}{3}・\frac{1}{3}=-\frac{1}{36}
$$

$${i≠j}$$となる組み合わせは$${4×4-4=12}$$通り存在するので

$$
V(X_1+X_2+X_3+X_4)=\sum_{i} V(X_i)+\sum_{i≠j} Cov(X_i,X_j)\\
=\frac{2}{9}・4-\frac{1}{36}・12\\
=\frac{5}{9}
$$

よって

$$
V(\bar{X})=V(\frac{1}{4}\sum_{i=1}^{4}X_i)=\frac{1}{16}V(X_1+X_2+X_3+X_4)\\
=\frac{1}{16}・\frac{5}{9}\\
=\frac{5}{144}
$$

問5.4

(1)期待値と分散の公式$${E[X+Y]=E[X]+E[Y],V[X+Y]=V[X]+V[Y]+2Cov[X,Y]}$$を用いる。
$${X,Y}$$はそれぞれ独立のポアソン分布に従うので$${Cov[X,Y]=0}$$であり、ポアソン分布の性質より$${E[X]=V[X],E[Y]=V[Y]}$$である。

$$
E[X+Y]=E[X]+E[Y]=1.5+3=4.5\\
V[X+Y]=V[X]+V[Y]=E[X]+E[Y]=4.5\\
$$

(2)ポアソン分布の性質より

$$
P(X=x)=\frac{λ^x}{x!}e^{-λ}=Po(λ)\\
E[X]=λ,V[X]=λ
$$

問題文より$${P(X=x)=Po(λ=1.5),P(Y=y)=Po(λ=3),P(X+Y)=Po(λ=4.5)}$$であり、条件付き確率の定理より$${X,Y}$$がそれぞれ独立の時$${P(X∩Y)=P(X)P(Y)}$$が成り立つ。

$$
P(X=x|x+y=5)=\frac{P((X=x)∩(X+Y=5))}{P(X+Y=5)}\\
=\frac{P((X=x)∩(Y=5-X))}{P(X+Y=5)}\\
=\frac{P(X=x)P(Y=5-X)}{P(X+Y=5)}\\
=\frac{Po(λ=1.5,X=x)Po(λ=3,X=5-x)}{Po(λ=4.5,X=5)}\\
=\frac{(\frac{1.5^x}{x!}e^{-1.5})(\frac{3^{5-x}}{(5-x)!}e^{-3})}{\frac{4.5^5}{5!}e^{-4.5}}\\
=\frac{5!}{x!(5-x)!}・\frac{1.5^x・3^{5-x}}{4.5^5}・\frac{e^{-1.5}・e^{-3}}{e^{-4.5}}\\
={}_5C_x・(\frac{1.5}{4.5})^x・(\frac{3}{4.5})^{5-x}
$$

※このとき$${P((X=x)∩(X+Y=5))→P((X=x)∩(Y=5-X))}$$と変換したことにより、$${X,Y}$$が独立の時$${P(X∩Y)=P(X)P(Y)}$$という定理を利用することができる。

二項分布の確率関数は$${q=1-p}$$を用いて

$$
P(Y=y)={}_nC_yp^yq^{n-y}, y=0,1,…,n
$$

と表せることから、$${P(X=x|x+y=5)}$$は$${p=\frac{1.5}{4.5},q=\frac{3}{4.5},n=5}$$の二項分布で表せると分かる。
二項分布の定理より$${E[X]=np=5・\frac{1.5}{4.5}=\frac{5}{3}}$$

よって$${P(X=x|x+y=5)}$$は平均$${\frac{5}{3}}$$の二項分布に従う。

問5.5

公式テキスト解説の分かりにくいポイント
P30の幾何分布の定理に関する説明は「はじめて成功するまでに起こる失敗の回数Xの分布」を幾何分布としている。一方でP31中段にも「初めて成功するまでの試行回数Wの分布」も幾何分布と呼ぶと書いている。
後者はおまけ程度の記述に見えるが、問5.5は後者の定理を用いるので注意が必要。そのため問5.5の期待値は前者の$${E[X]=\frac{q}{p}}$$ではなく、後者の$${E[W]=E[X]+1=\frac{1}{p}}$$となる。

(1)既にk種類のカードが揃っているときにk+1枚目のカードが当たるまでの購入回数の期待値は、幾何分布の定理を用いて

$$
E[X]=\frac{1}{p}=\frac{1}{\frac{4-k}{4}}=\frac{4}{4-k}
$$

k=0,1,2,3なので、それぞれの期待値を加算すると

$$
\sum E[X]=\frac{4}{4-0}+\frac{4}{4-1}+\frac{4}{4-2}+\frac{4}{4-3}=1+\frac{4}{3}+2+4=\frac{25}{3}
$$

(2)(1)より、4種類全て集めるのに必要な購入回数の期待値は$${\frac{25}{3}}$$なので、既にk=4種類のカードが揃っている時に5種類目が当たるまでの購入回数の期待値は

$$
x=\frac{25}{3}+\frac{5}{5-k}\\
=\frac{25}{3}+\frac{5}{1}\\
=\frac{40}{3}
$$

一方ではじめから5種類が発売されていた場合に揃えるまでの購入回数の期待値は、(1)と同様の計算により

$$
y=\frac{5}{5-0}+\frac{5}{5-1}+\frac{5}{5-2}+\frac{5}{5-3}+\frac{5}{5-4}=1+\frac{5}{4}+\frac{5}{3}+\frac{5}{2}+5=\frac{137}{12}
$$

よってそれぞれの購入回数の期待値の差は

$$
x-y=\frac{40}{3}-\frac{137}{12}=\frac{23}{12}
$$

この記事が気に入ったらサポートをしてみませんか?