東京大学大学院経済学研究科 統計学コース 2016年度解答

記法は共立講座 数学の魅力11現代数理統計学の基礎(久保川達也)になるべく準拠します。

誤植、間違い等発見しましたらコメントにて指摘お願いします。著作権でアウトな場合は公開を停止します。

問題文は原文ママ、解答は現代数理統計学の基礎に準拠しておりますので、記法に少々誤差があります。

小問1

$${X_{1},...,X_{n}}$$を, ある母集団からのランダムサンプルとし, $${E[X_{1}]=0}$$, $${E[X_{1}^{2}]=\sigma^{2}}$$, $${E[X_{1}^{3}]=0}$$, $${E[X_{1}^{4}]=\mu_{4}}$$であるとする。

(1)$${T_{n}=n^{-1}\sum_{i=1}^{n}X_{i}^{2}}$$とおく。$${T_{n}}$$が$${\sigma^{2}}$$に確率収束することを証明せよ。

(2)$${\sqrt{n}\left(T_{n}-\sigma^{2}\right)}$$の漸近分布を与えよ。この分布収束を積率母関数を用いて証明せよ。ただし, 積率母関数の存在など, 証明に必要な条件は, 適当に仮定してよい。

(3)$${\mu_{4}}$$の一致推定量を与えよ。この一致性が成り立つためのモーメント条件を与えよ。これと(2)の漸近分布に基づいて, 信頼係数$${1-\alpha}$$の$${\sigma^{2}}$$の信頼区間を構成せよ。

解答

(1)まず$${T_{n}}$$の分散を求める。

$$
\begin{align*}
E[T_{n}]&=\frac{1}{n}\sum_{i=1}^{n}E[X_{i}^{2}]=\frac{1}{n}n\sigma^{2}=\sigma^{2} \\
E[T_{n}^{2}]&=E\left[\frac{1}{n^{2}}\sum_{i,j}X_{i}^{2}X_{j}^{2}\right]=\frac{1}{n^{2}}\left\{\sum_{i\neq j}E[X_{i}^{2}]E[X_{j}^{2}]+\sum_{i=1}^{n}E[X_{i}^{4}]\right\} \\
&=\frac{1}{n^{2}}\left\{(n^{2}-n)\sigma^{4}+n\mu_{4}\right\}=\sigma^{4}+\frac{\mu_{4}-\sigma^{4}}{n}
\end{align*}
$$

これより分散は

$$
\begin{align*}
\mathrm{Var}(T_{n})= \sigma^{4}+\frac{\mu_{4}-\sigma^{4}}{n}-(\sigma^{2})^{2}= \frac{\mu_{4}-\sigma^{4}}{n}
\end{align*}
$$

Chebyshevの不等式より

$$
\begin{align*}
P\left(|T_{n}-\sigma^{2}| > \varepsilon\right) \leq \frac{E[(T_{n}-\sigma^{2})^{2}]}{\varepsilon^{2}} =\frac{\mathrm{Var}(T_{n})}{\varepsilon^{2}}=\frac{\mu_{4}-\sigma^{2}}{n \varepsilon^{2}} \underset{n\rightarrow \infty}{\longrightarrow} 0
\end{align*}
$$

以上より$${T_{n}\rightarrow_{p}\sigma^{2}}$$が示された。

(2)$${X_{i}^{2}\sim(\sigma^{2},\mu_{4}-\sigma^{4})}$$であり$${T_{n}}$$はこの平均であるから、中心極限定理より$${\sqrt{n}(T_{n}-\sigma^{2})\rightarrow_{d}\mathcal{N}(0,\mu_{4}-\sigma^{4})}$$となる。これを積率母関数を用いて示す。

$${Y_{i}=\dfrac{X_{i}^{2}-\sigma^{2}}{\sqrt{\mu_{4}-\sigma^{4}}}}$$と置くと、$${E[Y_{i}]=0}$$,$${E[Y_{i}^{2}]=1}$$となる。積率母関数を$${M_{Y}(t)}$$とすると、

$$
\begin{align*}
M_{Y}(t)&=E[\mathrm{e}^{tY}]=E\left[\sum_{k=0}^{\infty}\frac{Y^{k}}{k!}t^{k}\right]=\sum_{k=0}^{\infty}\frac{E[Y^{k}]}{k!}t^{k}=1+\frac{1}{2}t^{2}+o(t^{2})
\end{align*}
$$

である。このとき

$$
\begin{align*}
M_{\sqrt{n}\bar{Y}}(t)&=\prod_{i=1}^{n}E\left[\mathrm{e}^{\frac{t}{\sqrt{n}}Y_{i}}\right]=\prod_{i=1}^{n}M_{Y_{i}}\left(\frac{t}{\sqrt{n}}\right) \\
&=\left\{1+\frac{t^{2}}{2n}+o\left(\left(\frac{t}{n}\right)^{2}\right)\right\}^{n}\underset{n\rightarrow \infty}{\longrightarrow}\mathrm{e}^{\frac{t^{2}}{2}}
\end{align*}
$$

これは標準正規分布の積率母関数であるからL$${\;\!\!\!\'\mathrm{e}\!\!}$$viの連続性定理とSlutskyの定理より、$${\sqrt{n}\bar{Y}\rightarrow_{d}\mathcal{N}(0,1)}$$i.e.$${\sqrt{n}(T_{n}-\sigma^{2})\rightarrow_{d}\mathcal{N}(0,\mu_{4}-\sigma^{4})}$$。

(3)$${S_{n}=n^{-1}\sum_{i=1}^{n}X_{i}^{4}}$$とする。このとき(1)での$${T_{n}}$$の分散の計算と同様にして

$$
\begin{align*}
\mathrm{Var}(S_{n})=\frac{\mu_{8}-\mu_{4}^{2}}{n}
\end{align*}
$$

がわかる。ここで$${\mu_{8}=E[X_{1}^{8}]<\infty}$$を仮定した。この条件のもと、Chebyshevの不等式を用いて$${S_{n}\rightarrow_{p}\mu_{4}}$$となる。よって$${S_{n}}$$は$${\mu_{4}}$$の一致推定量である。

(2)より$${n}$$が十分大きいとき$${\sqrt{n}(T_{n}-\sigma^{2})\rightarrow_{d}\mathcal{N}(0,\mu_{4}-\sigma^{4})}$$であり、このとき信頼係数$${1-\alpha}$$の$${\sigma^{2}}$$の信頼区間は近似的に

$$
\begin{align*}
-z_{\alpha/2}\leq\frac{\sqrt{n}(T_{n}-\sigma^{2})}{\sqrt{\mu_{4}-\sigma^{4}}}\leq z_{\alpha/2}
\end{align*}
$$

これを解いて

$$
\begin{align*}
\frac{nT_{n}-\sqrt{n^{2}T_{n}^{2}-(n+z_{\alpha/2}^{2})(nT_{n}^{2}-\mu_{4}z_{\alpha/2}^{2})}}{n+z_{\alpha/2}^{2}}\leq\sigma^{2}\leq\frac{nT_{n}+\sqrt{n^{2}T_{n}^{2}-(n+z_{\alpha/2}^{2})(nT_{n}^{2}-\mu_{4}z_{\alpha/2}^{2})}}{n+z_{\alpha/2}^{2}}
\end{align*}
$$

$${\mu_{4}}$$を$${S_{n}}$$に置き換えることで

$$
\begin{align*}
\frac{nT_{n}-\sqrt{n^{2}T_{n}^{2}-(n+z_{\alpha/2}^{2})(nT_{n}^{2}-S_{n}z_{\alpha/2}^{2})}}{n+z_{\alpha/2}^{2}}\leq\sigma^{2}\leq\frac{nT_{n}+\sqrt{n^{2}T_{n}^{2}-(n+z_{\alpha/2}^{2})(nT_{n}^{2}-S_{n}z_{\alpha/2}^{2})}}{n+z_{\alpha/2}^{2}}
\end{align*}
$$

を得る。


小問2

次の問に答えよ。

(1)$${\int_{-\infty}^{\infty}\exp\left\{-z^{2}/2\right\}dz=\sqrt{2\pi}}$$が成り立つことを証明せよ。これを用いて, $${\Gamma(1/2)=\sqrt{\pi}}$$となることを示せ。ここで, $${\Gamma(a)}$$はガンマ関数で, $${a>0}$$に対して

$$
\begin{align*}
\Gamma(a)=\int_{0}^{\infty}x^{a-1}e^{-x}dx
\end{align*}
$$

で定義される。

(2)$${U_{1}}$$と$${U_{2}}$$を互いに独立な確率変数で, 区間$${(0,1)}$$上の一様分布に従うものとする。

$$
\begin{align*}
R=\sqrt{-2\log U_{1}},\theta=2\pi U_{2}
\end{align*}
$$

とおき, $${X=R\cos\theta}$$, $${Y=R\sin\theta}$$とおく。このとき,$${X}$$と$${Y}$$は独立に分布し,それぞれ標準正規分布の従うことを示せ。

解答

(1)$${\left(\int_{-\infty}^{\infty}\exp\left\{-z^{2}/2\right\}dz\right)^{2}}$$を考える。

$$
\begin{align*}
\left(\int_{-\infty}^{\infty}\exp\left\{-z^{2}/2\right\}dz\right)^{2}&=\int_{-\infty}^{\infty} \exp\left\{-x^{2}/2\right\}dx\cdot \int_{-\infty}^{\infty} \exp\left\{-y^{2}/2\right\}dy \\
&=\int_{\mathbb{R}^{2}}\exp\left\{\frac{x^{2}+y^{2}}{2}\right\}dxdy
\end{align*}
$$

$${x=r\cos\theta}$$,$${y=r\sin\theta}$$とするとJacobianは$${J=r}$$であるから

$$
\begin{align*}
\int_{\mathbb{R}^{2}}\exp\left\{\frac{x^{2}+y^{2}}{2}\right\}dxdy=\int_{0}^{2\pi}\int_{0}^{\infty}\exp\left\{-\frac{r^{2}}{2}\right\}rdrd\theta=2\pi
\end{align*}
$$

以上より$${\int_{-\infty}^{\infty}\exp\left\{-z^{2}/2\right\}dz=\sqrt{2\pi}}$$である。

定義より$${\Gamma(1/2)=\int_{0}^{\infty}x^{\frac{1}{2}-1}e^{-x}dx}$$である。$${x=t^{2}}$$とすると$${dx=2tdt}$$であるから

$$
\begin{align*}
\Gamma\left(\frac{1}{2}\right)=\int_{0}^{\infty}\frac{1}{t}e^{-t^{2}}2tdt=2\int_{0}^{\infty}e^{-t^{2}}dt
\end{align*}
$$

$${t=\frac{u}{\sqrt{2}}}$$として$${dt=\frac{du}{\sqrt{2}}}$$であるから

$$
\begin{align*}
\Gamma\left(\frac{1}{2}\right)=2\int_{0}^{\infty}e^{\frac{u^{2}}{2}}\frac{du}{\sqrt{2}}=\frac{1}{\sqrt{2}}\int_{-\infty}^{\infty}e^{\frac{u^{2}}{2}}du=\sqrt{\pi}
\end{align*}
$$

最後に奇関数の性質を利用した。

(2)$${U\sim U(0,1)}$$のとき定義関数を用いて確率密度関数は$${I(0< u<1)}$$と表される。$${r=\sqrt{-2\log u_{1}}>0}$$,$${\theta=2\pi u_{2}}$$を逆に解くと、$${u_{1}=e^{-\frac{R^{2}}{2}}}$$, $${u_{2}=\frac{\theta}{2\pi}}$$となるからJacobianは

$$
\begin{align*}
J(r,\theta\rightarrow u_{1},u_{2})=\mathrm{det}
\begin{pmatrix}
-re^{-\frac{r^{2}}{2}}&0\\
0&\frac{1}{2\pi}
\end{pmatrix}
=-\frac{r}{2\pi}e^{-\frac{r^{2}}{2}}
\end{align*}
$$

よって$${R}$$,$${\theta}$$の従う同時確率密度関数は

$$
\begin{align*}
f_{R,\theta}(r,\theta)&=I(0<e^{-\frac{r^{2}}{2}}<1)I(0<\frac{\theta}{2\pi}<1)\frac{r}{2\pi}e^{-\frac{r^{2}}{2}} \\
&=re^{-\frac{r^{2}}{2}}I(r>0)\cdot \frac{1}{2\pi}I(0<\theta<2\pi)
\end{align*}
$$

となる。これより$${R}$$と$${\theta}$$が独立に分布することがわかる。次に$${x=r\cos\theta}$$,$${y=r\sin\theta}$$の変換におけるJacobianは

$$
\begin{align*}
J(r,\theta\rightarrow x,y)&=r \\
J(x,y\rightarrow r,\theta)&=\frac{1}{J(r,\theta\rightarrow x,y)}=\frac{1}{r}
\end{align*}
$$

ここで$${(x,y)}$$は$${\mathbb{R}^{2}}$$上のすべての点をとる。これより$${X}$$,$${Y}$$の従う同時確率密度関数は

$$
\begin{align*}
f_{X,Y}(x,y)=re^{-\frac{x^{2}+y^{2}}{2}}\frac{1}{2\pi}\frac{1}{r}=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^{2}}{2}}\cdot\frac{1}{\sqrt{2\pi}}e^{-\frac{y^{2}}{2}}
\end{align*}
$$

よって$${X}$$,$${Y}$$は独立に標準正規分布に従う。


小問3

非負の整数上の確率変数$${X}$$の確率関数を$${f(x)}$$, 分布関数を$${F(x)}$$とする。非負の整数$${y}$$に対して, $${F(y)=\sum_{x=0}^{y}f(x)}$$であり, $${\sum_{x=0}^{\infty}f(x)=1}$$をみたしている。

(1)$${E[X]=\sum_{x=0}^{\infty}\left\{1-F(x)\right\}}$$, $${E[X(X-1)]=2\sum_{y=0}^{\infty}\sum_{x=y+1}^{\infty}\left\{1-F(x)\right\}}$$が成り立つことを示せ。
(ヒント:$${x=\sum_{y=0}^{x-1}1}$$, $${x(x-1)=2\sum_{y=0}^{x-1}y}$$なる関係を用いるとよい。)

(2)確率変数$${X}$$が幾何分布$${Geo(p)}$$に従っているとする。幾何分布の確率関数$${f(x)}$$は$${f(x)=pq^{x}}$$, $${x=0,1,2,…,}$$で与えられ, $${q=1-p}$$, $${0< p <1}$$をみたすものとする。このとき, 非負の整数$${x}$$に対して分布関数$${F(x)}$$を求めよ。また, (1)の結果を用いて, $${X}$$の平均と分散を求めよ。

(3)$${X}$$が上の幾何分布に従っているとし, 非負の整数$${t}$$に対して, 条件$${X>t}$$が与えられたときの$${X=x}$$の条件付き確率$${P(X=x|X>t)}$$, $${x=t+1,t+2,…,}$$を与えよ。その時の条件付き平均$${E[X|X>t]}$$, 条件付き分散$${Var(X|X>t)}$$を求めよ。

(4)互いに独立な確率変数$${X_{1},…,X_{n}}$$が, それぞれ幾何分布$${Geo(p)}$$に従っているとする。このとき, $${p}$$の最尤推定量$${\hat{p}}$$を求めよ。また, $${\sqrt{n}(\hat{p}-p)}$$の漸近分布を与えよ。この漸近分布に基づいて, 仮説$${H_{0}:p=p_{0}}$$ vs $${H_{1}:p\neq p_{0}}$$に関する, 有意水準$${\alpha}$$の両側検定の棄却域を与えよ。

解答

(1)$${E[X]=\sum_{x=0}^{\infty}xf(x)}$$を変形していく。

$$
\begin{align*}
E[X]&=\sum_{x=0}^{\infty}xf(x)=\sum_{x=0}^{\infty}\sum_{y=0}^{x-1}f(x)=\sum_{y=0}^{\infty}\sum_{x=y+1}^{\infty}f(x) \\
&=\sum_{y=0}^{\infty}\left\{1-F(y)\right\}=\sum_{x=0}^{\infty}\left\{1-F(x)\right\}
\end{align*}
$$

$${E[X(X-1)]=\sum_{x=0}^{\infty}x(x-1)f(x)}$$を変形する。

$$
\begin{align*}
E[X(X-1)]&=\sum_{x=0}^{\infty}x(x-1)f(x)=\sum_{x=0}^{\infty}2\sum_{y=0}^{x-1}yf(x)=2\sum_{x=0}^{\infty}\sum_{y=0}^{x-1}\sum_{i=0}^{y-1}f(x) \\
&=2\sum_{i=0}^{\infty}\sum_{y=i+1}^{\infty}\sum_{x=y+1}^{\infty}f(x)
=\sum_{i=0}^{\infty}\sum_{y=i+1}^{\infty}\left\{1-F(y)\right\} \\
&=\sum_{y=0}^{\infty}\sum_{x=y+1}^{\infty}\left\{1-F(x)\right\}
\end{align*}
$$

よって示された。

(2)累積分布関数$${F(x)}$$は

$$
\begin{align*}
F(x)=\sum_{y=0}^{x}pq^{y}=p\frac{1-q^{x+1}}{1-q}=1-q^{x+1}
\end{align*}
$$

(1)を用いて$${E[X]}$$, $${E[X(X-1)]}$$はそれぞれ

$$
\begin{align*}
E[X]&=\sum_{x=0}^{\infty}\left\{1-F(x)\right\}=\sum_{x=0}^{\infty}q^{x+1}=q\frac{1}{1-q}=\frac{q}{p} \\
E[X(X-1)]&=2\sum_{y=0}^{\infty}\sum_{x=y+1}^{\infty}q^{x+1}=2\sum_{y=0}^{\infty}q^{y+2}\frac{1}{1-q}=\frac{2}{p}q^{2}\frac{1}{1-q}=\frac{2q^{2}}{p^{2}}
\end{align*}
$$

となる。$${\mathrm{Var}(X)=E[X(X-1)]+E[X]-\left\{E[X]\right\}^{2}}$$より

$$
\begin{align*}
\mathrm{Var}(X)=\frac{2q^{2}}{p^{2}}+\frac{q}{p}-\frac{q^{2}}{p^{2}}=\frac{q}{p^{2}}
\end{align*}
$$

(3)条件付き確率は

$$
\begin{align*}
P(X=x|X>t)=\frac{P(X=x,X>t)}{P(X>t)}=\frac{f(x)}{1-F(t)}=\frac{pq^{x}}{q^{t+1}}=pq^{x-t-1}
\end{align*}
$$

条件付き期待値、条件付き分散を求めるために$${E[X|X>t]}$$と$${E[X^{2}|X>t]}$$を求める。

$$
\begin{align*}
E[X|X>t]&=\sum_{x=t+1}^{\infty}xpq^{x-t-1}=\sum_{x=0}^{\infty}(x+t+1)pq^{x} \\
&=E[X]+t+1=\frac{q}{p}+t+1 \\
E[X^{2}|X>t]&=\sum_{x=t+1}^{\infty}x^{2}pq^{x-t-1}=\sum_{x=0}^{\infty}(x+t+1)^{2}pq^{x} \\
&=E[X^{2}]+(2t+2)E[X]+t^{2}+2t+1 \\
&=\frac{2q^{2}}{p^{2}}+\frac{q}{p}+(2t+2)\frac{q}{p}+t^{2}+2t+1
\end{align*}
$$

となるから、条件付き分散は

$$
\begin{align*}
\mathrm{Var}(X|X>t)=E[X^{2}|X>t]-\left\{E[X|X>t]\right\}=\frac{q}{p^{2}}
\end{align*}
$$

(4)尤度関数、対数尤度関数はそれぞれ

$$
\begin{align*}
L(p|\textbf{X})&=\prod_{i=1}^{n}pq^{X_{i}}=p^{n}q^{\sum X_{i}} \\
\ell(p|\textbf{X})&=n\log p+\sum_{i=1}^{n}X_{i}\log (1-p)
\end{align*}
$$

尤度方程式は

$$
\begin{align*}
\frac{d\ell}{dp}=\frac{n}{p}-\frac{\sum_{i=1}^{n}X_{i}}{1-p}=0
\end{align*}
$$

これを解いて、$${\hat{p}=\dfrac{1}{1+\bar{X}}}$$を得る。

$${p}$$のFisher情報量を$${I(p)}$$とする。

$$
\begin{align*}
\frac{d^{2}\ell}{dp^{2}}=-\frac{1}{p^{2}}-\frac{X}{(1-p)^{2}}
\end{align*}
$$

であるから、Fisher情報量は

$$
\begin{align*}
I(p)=-E\left[\frac{d^{2}\ell}{dp^{2}}\right]=\frac{1}{p^{2}}+\frac{q/p}{q^{2}}=\frac{1}{p^{2}q}
\end{align*}
$$

よって最尤推定量の漸近正規性より$${\sqrt{n}(\hat{p}-p)\rightarrow_{d}\mathcal{N}(0,1/I(p))=\mathcal{N}(0,p^{2}q)}$$となる。

$${H_{0}:p=p_{0}}$$のもと、$${\sqrt{\frac{n}{p_{0}^{2}(1-p_{0})}}(\hat{p}-p_{0})\rightarrow_{d}\mathcal{N}(0,1)}$$より、棄却域は

$$
\begin{align*}
R=\left\{x;\sqrt{\frac{n}{p_{0}^{2}(1-p_{0})}}|\hat{p}-p_{0}|>z_{\alpha/2}\right\}
\end{align*}
$$

となる。

この記事が気に入ったらサポートをしてみませんか?