見出し画像

統計検定1級 2017年 人文科学 問題5 解答例 +α

はじめに

今回は統計検定1級より 2017年 人文科学 問題5 の解答を記載します。
グループ分けと信頼区間に関する問題です。
方法2におけるグループ分けの人数の分散について、問題では大小比較のみですが、実際に求めると、非常に綺麗な形となります。
補足としてこの分散の求め方について説明します。
問題については著作物のため割愛します。


前置き

$${A,B}$$ の 2 グループについて以下のグループ分けについて考えます。
1人目はグループ $${A,B}$$ ともに等確率でランダム。2人目以降は、そのときのグループ $${A}$$ の人数を $${a}$$ 、グループ $${B}$$ の人数を $${b}$$ とし、
$${\dfrac{b}{a+b}}$$ の確率でグループ $${A}$$ 、 $${\dfrac{a}{a+b}}$$ の確率でグループ $${B}$$ に選ばれる。

参加者を $${n}$$ 人として グループ $${A}$$ の人数を表す確率変数を $${Y_{n}}$$ とした場合、
$${Y_{n}}$$ の分散 $${V[Y_{n}]}$$ は、$${n \geq 3}$$ のとき、

$$
\begin{aligned}
V[Y_{n}] =\dfrac{n}{12}
\end{aligned}
$$

で表されます。導出は [補足] をご覧ください。

[1]

$${X \sim B(5,0.5)}$$ より

$$
\begin{aligned}
P(X=3)
&={}_{5}C_{3} \left( \dfrac{1}{2} \right)^{2} \\
&= \dfrac{10}{32} \\
&= 0.3125
\end{aligned}
$$

$$
\begin{aligned}
E[X]
&=5 \cdot 0.5 \\
&= 2.5 \\
\end{aligned}
$$

$$
\begin{aligned}
V[X]
&=5 \cdot 0.5 \cdot (1-0.5) \\
&= 1.25
\end{aligned}
$$

[2]

2人目は必ず1人目で選ばれなかったグループに選ばれることから、2人目のグループ分けの終了時点で、必ずグループ $${A}$$ に1人、グループ $${B}$$ に1 人となる。ゆえに、3人目以降のグループ分けのみ考えればよい。
また、$${P(Y=0)=P(Y=5)=0}$$ となる。
さらに対称性により グループ $${A}$$ に1人選ばれる確率とグループ $${B}$$ に1人選ばれる確率( $${=}$$ グループ $${A}$$ に4人選ばれる確率)は等しい。

よって

$$
\left\{ \begin{aligned}
P(Y=1)=P(Y=4) \\
P(Y=2)=P(Y=3) \\
\end{aligned} \right.
$$

$${P(Y=1)}$$ については、 3 ~ 5 人目において、グループ $${A}$$ に選ばれればよい。よって、

$$
\begin{aligned}
P(Y=1)
&=\dfrac{1}{2} \cdot \dfrac{1}{3} \cdot \dfrac{1}{4} \\
&=\dfrac{1}{24}
\end{aligned}
$$

すべての確率の和は 1 であることから、

$$
\begin{aligned}
\sum_{i=1}^{5} P(Y=i) = 1 \\
2\cdot \dfrac{1}{24} + 2\ P(Y=2) = 1
\end{aligned}
$$

よって、

$$
\begin{aligned}
P(Y=2)=P(Y=3)=\dfrac{11}{24}
\end{aligned}
$$

各確率をまとめると、

$$
\left\{\begin{aligned}
&P(Y=0)=0 \\
&P(Y=1)=\dfrac{1}{24} \\
&P(Y=2)=\dfrac{11}{24} \\
&P(Y=3)=\dfrac{11}{24} \\
&P(Y=4)=\dfrac{1}{24} \\
&P(Y=5)=0 \\
\end{aligned} \right.
$$

以上より、

$$
\begin{aligned}
E[Y]
&=\dfrac{1}{24} (1\cdot 1 + 2\cdot 11
+3 \cdot 11 + 4\cdot 1 ) \\
&=\dfrac{60}{24} \\
&= 2.5
\end{aligned}
$$

$$
\begin{aligned}
V[Y]
&=\dfrac{1}{24} ((1-1.5)^{2} \cdot 1 + (2-2.5)^{2} \cdot 11
+(3-2.5)^{2} \cdot 11 + (4-2.5)^{2} \cdot 1 ) \\
&=\dfrac{10}{24} \\
&= \dfrac{5}{12}
\end{aligned}
$$

[3]

$${X \sim B(5,0.5)}$$ より $${E[X]=\dfrac{n}{2}}$$
$${Y}$$ については対称性により、$${P(Y=i)=P(Y=n-i)}$$ が成り立つことを利用し、期待値を求めると、

まず、$${n=2k (k=1,\ 2,\ ...)}$$ のとき、

$$
\begin{aligned}
E[Y]
&=1\cdot P(Y=1) + \cdots + (2k-1) \cdot P(Y=2k-1) \\
&=2kP(Y=1) + \cdots + 2kP(Y=k-1) +k \cdot P(Y=k) \\
&=k(2P(Y=1) + \cdots + 2P(Y=k-1) + P(Y=k)) \\
&=k\sum_{i=1}^{2k-1}P(Y=i) \\
&=\dfrac{n}{2}
\end{aligned}
$$

次に、$${n=2k+1 (k=1,\ 2,\ ...)}$$ のとき、

$$
\begin{aligned}
E[Y]
&=1\cdot P(Y=1) + \cdots + (2k) \cdot P(Y=2k) \\
&=(2k+1)P(Y=1) + \cdots + (2k+1)P(Y=k) \\
&=\dfrac{2k+1}{2}(2P(Y=1) + \cdots + 2P(Y=k)) \\
&=\dfrac{2k+1}{2}\sum_{i=1}^{2k}P(Y=i) \\
&=\dfrac{n}{2}
\end{aligned}
$$

よって期待値については

$$
\begin{aligned}
E[X]=E[Y]
\end{aligned}
$$

が成り立つ。

分散については、方法 2 においては人数の少ないグループに選ばれる確率が大きくなり、人数の多いグループに選ばれる確率が小さくなることから、グループ分けの人数のばらつきは小さくなる。よって、$${V[X] \gt V[Y]}$$ となる。

[4]

グループ $${A,B}$$ の生徒の点数の確率変数をそれぞれ $${X_{A},X_{B}}$$ 人数をそれぞれ $${n_{A},n_{B}}$$ とすると、分散が既知なので

$$
\begin{aligned}
\dfrac{\bar{X}_{A}-\mu_{A}}{\dfrac{\sigma_{A}}{\sqrt{n_{A}}}}
\sim N(0,1)
\end{aligned}
$$

となる。よって $${\mu_{A}}$$ の95%信頼区間は

$$
\begin{aligned}
\bar{X}_{A} - z_{0.025} \dfrac{\sigma_{A}}{\sqrt{n_{A}}}\lt \mu_{A}
\lt \bar{X}_{A} + z_{0.025} \dfrac{\sigma_{A}}{\sqrt{n_{A}}}
\end{aligned}
$$

ゆえに区間幅 $${L_{A}}$$ は

$$
\begin{aligned}
L_{A}
&= 2 z_{0.025} \dfrac{\sigma_{A}}{\sqrt{n_{A}}} \\
&= 2 \cdot 1.96 \cdot \dfrac{20}{\sqrt{96}} \\
&= 8.00
\end{aligned}
$$

また、区間幅 $${L_{B}}$$ については

$$
\begin{aligned}
L_{B}
&= 2 z_{0.025} \dfrac{\sigma_{B}}{\sqrt{n_{B}}} \\
\end{aligned}
$$

と表せることから、区間幅比 $${\dfrac{L_{A}}{L_{B}}}$$ は

$$
\begin{aligned}
\dfrac{L_{A}}{L_{B}}
&=\dfrac{\sigma_{A}}{\sqrt{n_{A}}} \cdot
\dfrac{\sqrt{n_{B}}}{\sigma_{B}} \\
&=\dfrac{\sigma_{A}}{\sigma_{B}}
\sqrt{\dfrac{{n_{B}}}{n_{A}}} \\
&=\sqrt{\dfrac{104}{96}} \\
&= 1.041 \\
\end{aligned}
$$

となる。

[5]

[4] の結果から、$${\mu_{A}}$$ の95%の信頼区間の区間幅が $${8.0}$$ 以下となるには $${n_{A} \geq 96}$$ である必要がある。

$${E[X]=\dfrac{n}{2},V[X]=\dfrac{n}{4}}$$ であり、
$${n}$$ が十分に大きいことから、$${X \sim N\left( \dfrac{n}{2},\dfrac{n}{4} \right)}$$ と近似できる。

よって、

$$
Z=\dfrac{X-\dfrac{n}{2}}{\sqrt{\dfrac{n}{4}}}
=\dfrac{2X-n}{\sqrt{n}} \sim N(0,1)
$$

$${P(X \geq 96)=0.8}$$ となることから、

$$
\begin{aligned}
P(X \geq 96)
&=P\left(\dfrac{2X-n}{\sqrt{n}} \geq \dfrac{192-n}{\sqrt{n}}\right) \\
&=P\left( Z \geq \dfrac{192-n}{\sqrt{n}}\right) \\
&= 0.8 \\
\end{aligned}
$$

よって

$$
\begin{aligned}
&\dfrac{192-n}{\sqrt{n}}
=z_{0.8}=-z_{0.2} =-0.84& \\
&\hspace{30pt} 192-n= -0.84\sqrt{n}& \\
&\hspace{23pt} n-0.84\sqrt{n} -192= 0& \\
\end{aligned}
$$

2次方程式の解の公式より

$$
\begin{aligned}
&\sqrt{n}=0.42 + \sqrt{0.42^2+192\cdot 1} = 14.28 \\
&\hspace{53pt} n = 203.9
\end{aligned}
$$

よって、204 人以上の学生が必要である。

[補足]

方針

まず、$${P(Y_{n}=i)}$$ を $${P(Y_{n-1}=\cdots)}$$ で表現します。
次に、上の関係式から、$${V[Y_{n}]}$$ の式を整理することにより、 $${V[Y_{n-1}]}$$ の形に変形し、漸化式を立式します。
漸化式の解き方については、帰納法を使うと早いですが、地道に解くこともできます。

証明

漸化式の立式

$${P(Y_{n}=i)}$$ と $${P(Y_{n-1}=\cdots)}$$ の関係については
$${P(Y_{n}=i)}$$ は $${n}$$ 人 において、グループ $${A}$$ の人数が $${i}$$ 人である確率であることから、" $${n-1}$$ 人のグループ分けにおいてグループ $${A}$$ の人数が $${i-1}$$ となり、最後の人が グループ $${A}$$ に選ばれる確率" と " $${n-1}$$ 人のグループ分けにおいてグループ $${A}$$ の人数が $${i}$$ となり、最後の人が グループ $${B}$$ に選ばれる確率" の和となる。
よって、$${P(Y_{n}=i)}$$ と $${P(Y_{n-1}=\cdots)}$$ の関係式は以下のように表せる。

$$
\begin{aligned}
P(Y_{n}=i)
&=P(Y_{n-1}=i-1)\cdot \dfrac{n-1-(i-1)}{n-1}
+P(Y_{n-1}=i)\cdot \dfrac{i}{n-1} \\
&=\dfrac{n-i}{n-1} P(Y_{n-1}=i-1)
+\dfrac{i}{n-1} P(Y_{n-1}=i)\\
\end{aligned}
$$

$${V[Y_{n}]}$$ については

$$
\begin{aligned}
V\left[ Y_{n} \right]
&=E\left[ (Y_{n} - E[Y_{n}] )^{2} \right] \\
&=\sum^{n-1}_{i=1} \left(i - \dfrac{n}{2} \right)^{2}P(Y_{n}=i)\ \ \Bigr( P(Y_{n}=0) =P(Y_{n}=n) =0 \Bigl)\\
&=\dfrac{1}{n-1} \sum^{n-1}_{i=1} \left(i - \dfrac{n}{2} \right)^{2}
\left\{(n-i)P( Y_{n-1}=i-1) +iP(Y_{n-1}=i)\right\} \\
&=\dfrac{1}{n-1} \sum_{i=1}^{n-2} \left\{ \left(i - \dfrac{n}{2} \right)^{2} i P(Y_{n-1}=i) +
\left(i +1 - \dfrac{n}{2} \right)^{2} (n-i-1) P(Y_{n-1}=i) \right\} \\
& \hspace{15pt} \Bigg(\left( 1 - \dfrac{n}{2} \right)^{2} (n-1) P(Y_{n-1}=0)
=\left( n-1 - \dfrac{n}{2} \right)^{2} (n-1) P(Y_{n-1}=n-1) =0 \Bigg)\\
&=\dfrac{1}{n-1}\sum_{i=1}^{n-2} P(Y_{n-1}=i) \left\{ \left(i - \dfrac{n}{2} \right)^{2} i +
\left(i +1 - \dfrac{n}{2} \right)^{2} (n-i-1) \right\} \\
\end{aligned}
$$

ここで、$${\left(i - \dfrac{n}{2} \right)^{2} i + \left(i +1 - \dfrac{n}{2} \right)^{2} (n-i-1)}$$ について整理すると、

$$
\begin{aligned}
\Big(i & - \dfrac{n}{2} \Big)^{2} i + \left(i +1 - \dfrac{n}{2} \right)^{2} (n-i-1) \\
&=(n-3)i^{2}- (n-3)(n-1)i
+\dfrac{n-1}{4}\left( n^{2}-4n+4 \right)\\
&=(n-3)\left(i - \dfrac{n-1}{2} \right)^{2}- (n-3)\cdot\dfrac{(n-1)^{2}}{4}
+\dfrac{n-1}{4}\left( n^{2}-4n+4 \right)\\
&=(n-3)\left(i - \dfrac{n-1}{2} \right)^{2} +\dfrac{n-1}{4} (n^{2}-4n+4 -(n^2+4n+3))\\
&=(n-3)\left(i - \dfrac{n-1}{2} \right)^{2} +\dfrac{n-1}{4}\\
\end{aligned}
$$

以上より、

$$
\begin{aligned}
V\left[ Y_{n} \right]
&=\dfrac{1}{n-1}\sum_{i=1}^{n-2} P(Y_{n-1}=i) \left\{ (n-3) \left(i - \dfrac{n-1}{2} \right)^{2}
+\dfrac{n-1}{4} \right\}\\
&=\dfrac{n-3}{n-1}\left\{\sum_{i=1}^{n-2} \left(i - \dfrac{n-1}{2} \right)^{2} P(Y_{n-1}=i)
\right\}+\dfrac{1}{4}\\
&=\dfrac{n-3}{n-1}\ V[Y_{n-1}] +\dfrac{1}{4} \\
\end{aligned}
$$

分散の導出

$${V[Y_{n}]=\dfrac{n}{12}}$$ が成立することを帰納法により証明する。

$${n=3}$$ のとき、

$$
\begin{aligned}
V\left[ Y_{3} \right]
&=\dfrac{0}{2}V[Y_{2}]+\dfrac{1}{4} \\
&=\dfrac{1}{4}=\dfrac{3}{12} \\
\end{aligned}
$$

よって、$${V[Y_{3}]=\dfrac{3}{12}}$$ となり、成立する。

$${n=k}$$ のとき、 $${V[Y_{k}]=\dfrac{k}{12}}$$ が成立する場合、

$$
\begin{aligned}
V[Y_{k+1}]
&=\dfrac{k-2}{k} \cdot \dfrac{k}{12} + \dfrac{1}{4} \\
&=\dfrac{k-2}{12} + \dfrac{3}{12} \\
&=\dfrac{k+1}{12} \\
\end{aligned}
$$

と表せ、$${n=k+1}$$ の場合も成立することから、帰納法により $${n \geq 3}$$ において

$$
V[Y_{n}]= \dfrac{n}{12}
$$

が成立する。

別解

答えが未知の場合は、以下のように地道に解くこともできます。

$$
\begin{aligned}
V[Y_{n}]
&=\dfrac{n-3}{n-1}\ V[Y_{n-1}] +\dfrac{1}{4} \\
&=\dfrac{n-3}{n-1}\left( \dfrac{n-4}{n-2}\ V[Y_{n-2}]+ \dfrac{1}{4} \right) +\dfrac{1}{4} \\
&=\dfrac{1}{4} \left(1+ \dfrac{n-3}{n-1} + \dfrac{(n-3)(n-4)}{(n-1)(n-2)} +
\cdots +\dfrac{(n-3)(n-4)}{(n-1)(n-2)} \cdots \dfrac{1}{3} \right) \\
&=\dfrac{1}{4(n-1)(n-2)} \left( (n-1)(n-2) + (n-2)(n-3) + (n-3)(n-4) +
\cdots + 2\cdot 1 \right) \\
&=\dfrac{1}{4(n-1)(n-2)}\sum_{i=1}^{n-2}i(i+1) \\
\end{aligned}
$$

ここで、$${\sum_{i=1}^{n}i(i+1)}$$ については

$$
\begin{aligned}
\sum_{i=1}^{n}i(i+1)
&=\sum_{i=1}^{n} \left( i^{2}+i \right) \\
&=\dfrac{n(n+1)(2n+1)}{6} + \dfrac{n(n+1)}{2} \\
&=\dfrac{n(n+1)}{6}(2n+1+3) \\
&=\dfrac{n(n+1)(n+2)}{3} \\
\end{aligned}
$$

以上より、

$$
\begin{aligned}
V[Y_{n}]
&=\dfrac{1}{4(n-1)(n-2)}\sum_{i=1}^{n-2}i(i+1) \\
&=\dfrac{1}{4(n-1)(n-2)}\dfrac{(n-2)(n-1)n}{3} \\
&=\dfrac{n}{12}
\end{aligned}
$$

この記事が気に入ったらサポートをしてみませんか?