統計検定準一級受験記録③ 4章

検定準一級受験時に重要だと思った点を、統計学実践ワークブックをもとに僕なりにまとめていきます。専門的、厳密な解説はできませんが、誤りなどのご指摘があれば加筆修正を行っていきます。

4. 変数変換

この章ではとりあえず式を覚えてしまうことが先決だと思います。
応用として確率変数の線形結合の分布を求める方法があるので、余裕があればそちらを理解するといいかと。

この記事では4-1~4-3で覚えるべき式を列挙し、4-4で変数変換の式の導出について少し触れます。

4-1 変数変換による確率密度関数の変化

■1変数の時

連続確率変数$${X}$$の確率密度関数が$${f(x)}$$の時、
$${Y=g(X)      (\iff X=g^{-1}(Y))}$$の確率密度関数は

$${\cfrac{f(g^{-1}(y))}{|g'(g^{-1}(y))|}=\cfrac{f(x)}{|g'(x)|}    ・・・(A)}$$

ただし、$${g(x)}$$は$${x}$$と$${y}$$が1対1になっている関数。

$${x}$$と$${y}$$が1対1とは、

・ある$${x}$$が与えられた時、関数$${g(x)}$$に代入することで一つだけ$${y}$$が得られる
・その$${y}$$を$${g^{-1}(y)}$$に代入することで元の$${x}$$だけが得られる

と言える。

単調増加または単調減少な関数を想像すれば良いと思う。
$${y=3x+2}$$はこの例に該当するが、$${y=x^2}$$は該当しない。
$${g^{-1}(y)=±\sqrt{y}}$$なので、$${y}$$を代入すると2つの$${x}$$が得られてしまうため。(ワークブックの例1も参照。)

ワークブックだと$${g^{-1}(y)}$$を含む式の方を先に書いているけど、式$${(A)}$$の右辺の方を覚えておいて$${x=g^{-1}(y)}$$を代入する形で左辺の方を得る方が低労力。

■2変数の時

まず覚えるべきは、$${(X,Y)}$$の変換によって得られる$${(Z,W)}$$の確率変数が以下の式$${(B)}$$になること。

$${\cfrac{f(s(z,w),t(z,w))}{|J(s(z,w),t(z,w))|}=\cfrac{f(x,y)}{|J(x,y)|}    ・・・(B)}$$

1変数の時と同じでまずは右辺から覚えた方が低労力だと思う。

式$${(B)}$$の$${J}$$はヤコビアンと呼ばれるもので定義は以下。

$${J(X,Y)=\cfrac{\partial(u(X,Y),v(X,Y))}{\partial(X,Y)} =\begin{vmatrix} \cfrac{\partial u(X,Y)}{\partial X}&\cfrac{\partial u(X,Y)}{\partial Y} \\ \\ \cfrac{\partial v(X,Y)}{\partial X} & \cfrac{\partial v(X,Y)}{\partial Y} \end{vmatrix}}$$

初見だとややこしそうだけど、覚えるなら以下の3点。

①まず偏微分ができるようになること

②右辺は行列式を表している。行列式の計算方法は
$${\begin{vmatrix} a & b \\ c & d\end{vmatrix} = ad-bc}$$

③右辺の式の形を覚える(次のA~C)

A.行列の各成分に$${Z,W,X,Y}$$を以下のように割り当てる

$${\begin{vmatrix} \cfrac{Z}{X}&\cfrac{Z}{Y}  \\ \\ \cfrac{W}{X} & \cfrac{W}{Y} \end{vmatrix}}$$

B.偏微分の記号を付ける

$${\begin{vmatrix} \cfrac{\partial Z}{\partial X}&\cfrac{\partial Z}{\partial Y}  \\ \\ \cfrac{\partial W}{\partial X} & \cfrac{\partial W}{\partial Y} \end{vmatrix}}$$

C.$${Z,W}$$に$${u(X,Y),v(X,Y)}$$を代入する

$${\begin{vmatrix} \cfrac{\partial u(X,Y)}{\partial X}&\cfrac{\partial u(X,Y)}{\partial Y} \\ \\ \cfrac{\partial v(X,Y)}{\partial X} & \cfrac{\partial v(X,Y)}{\partial Y} \end{vmatrix}}$$

最終的に、式$${(B)}$$には「ヤコビアンの絶対値」を使用する。(ヤコビアンは負になることもある)


次に、式$${(B)}$$の$${f(x,y)}$$は2変数$${X,Y}$$の確率密度関数。

$${(s(Z,W),t(Z,W))}$$は$${(Z,W)}$$から$${X,Y}$$への変換$${(X,Y)=(s(Z,W),t(Z,W))}$$。
ワークブックの説明では、まず$${X,Y}$$から$${(Z,W)}$$への変換$${(Z,W)=(u(X,Y),v(X,Y))}$$を考え、その逆変換が$${(X,Y)=(s(Z,W),t(Z,W))}$$であるとしている。

$${(X,Y)}$$と$${(Z,W)}$$は1対1で変換されるとする。
これは、変換を関数と読み替えてしまって、1変数の時と同じように

・$${(x,y)}$$の組が一つ与えられた時、$${(u(x,y),v(x,y))}$$に代入することで$${(z,w)}$$が一つ得られる
・それを逆変換にあたる関数$${(s(z,w),t(z,w))}$$に代入することで元の$${(x,y)}$$だけが得られる

という状況を考えればよい。図で言うと以下のような感じ。

4-2 確率変数の線形結合の分布

式$${(B)}$$を使って独立な2つの確率変数の線形結合$${aX+bY}$$の確率密度関数を求める方法が解説されている。$${X}$$と$${Y}$$の線形結合とは、それぞれを定数倍して足し合わせたもの。変数が増えても考え方は同じ。(3つの変数なら$${aX+bY+cZ}$$になるだけ)

まずは手順を覚えた後、例題を解いて慣れていくと良い。

■手順

$${\begin{cases} Z&=aX+bY \\ W&=Y \\ \end{cases}}$$

とおく($${(X,Y)}$$から$${(Z,W)}$$への変換)。
ヤコビアンを計算すると

$${J=a}$$

に、逆変換は

$${X=Z/a-bW/a}$$、$${Y=W}$$

となる。


式$${(A)}$$に①の結果を代入する。
ここで、$${X}$$と$${Y}$$の確率密度関数をそれぞれ$${f_X(x)}$$、$${f_Y(y)}$$とすると、$${X}$$と$${Y}$$は独立のため、

$${f(x,y)=f_X(x)f_Y(y)}$$となる。

よって、

$${\cfrac{f(x,y)}{|J(x,y)|}=\cfrac{f_X(x)f_Y(y)}{|a|}=\cfrac{f_X(z/a-bw/a)f_Y(w)}{|a|}}$$

③これは$${Z}$$と$${W}$$の同時密度関数なので、$${w}$$について積分(周辺化)することで$${Z}$$の確率密度関数が得られる。

$${f_Z(z)=\displaystyle\int^\infty_{-\infty}\cfrac{1}{|a|}f_X(\cfrac{z}{a}-\cfrac{bw}{a})f_Y(w)dw}$$

積分範囲は$${w}$$が取りうる全範囲になる。ここでは特に条件が無いので無限大で書いている。

4-3 データの変換

得られたデータに対して何かしらの変換を行う。

■対数変換
データの対数を取る。

・様々な積が積み重なったようなデータの対数を取ることで正規分布に従うデータに変換できる。
・非負のデータを$${\infty}$$から$${-\infty}$$のデータに変換できる。

自然対数が一番、微積の計算が簡単になると思うので、何も言われてなければ自然対数でいいと思う。

■ベキ乗変換
$${x^a}$$(データの$${a}$$乗)に変換する。
実際はデータのプロットやデータの理論的な成り立ちを見て当てはまりが良さそうな$${a}$$を選択するのだと思う。学生の頃の物理や化学の実験はそんなところがあった。

■Box-Cox変換
上記二つをひとまとめにしたもの。
パラメータ$${\lambda}$$に対し

$${\begin{cases} \cfrac{x^\lambda -1}{\lambda} & (\lambda \ne 0) \\ \log x & (\lambda = 0) \end{cases}}$$

$${\lambda \ne 0}$$の時の式の特徴として
・$${x=1}$$付近を0に近付けている。(1を引いてそうしている)
・$${x=1}$$付近の変化をなだらかにしている。つまりこの付近の微分が1になるように式を作っている。($${\lambda}$$で割ることによりそうしている)
・非負のデータにしか適用できない。($${\log}$$にはそもそも正の数しか入れられないし、$${x^a}$$は$${a}$$が偶数以外の時に負の$${x}$$を入れると符号が振動したり虚数になったりする)

◎以下の変換は18章で再登場する。重要。

■ロジット変換

$${\log \cfrac{p}{1-p}}$$

確率$${p}$$のように0から1の値を取るものを$${\infty}$$から$${-\infty}$$の値に変換する。

■ロジスティック変換

$${\cfrac{1}{1+e^{-x}}}$$

ロジット変換の逆変換。
なので、これを$${x}$$について解けばロジット変換の式になる。

変数部分(指数の肩)は$${\beta_0+\beta_1x_1+\cdots +\beta_px_p}$$など、色々な形の式が入り得る。
このロジスティック関数は0から1の範囲しか取らない性質があり、$${\beta_0+\beta_1x_1+\cdots +\beta_px_p}$$のように複雑で$${\infty}$$から$${-\infty}$$の値を取る式で確率の構造をモデル化する。

これは、「どのようなデータが得られるかを表す分布にデータの持つ特徴が影響を与えているのは確かだが、その中身(構造、メカニズム)までは分からない。でも複雑な式(データを代入してなんやかんややって最終的に0から1の値を取るような関数)を与えた上で、得られたデータを元にパラメータをフィッティングしたらいいものができそう」という思想だと思う。もうちょっと根拠があってこの式なのかもしれないけど。

一応、万能近似定理というものがあるので調べてみるといいかも。

■プロビット変換

標準正規分布の累積分布関数$${\Phi(x)}$$の逆関数である、$${\Phi^{-1}(x)}$$による変換。

これも0から1の値しか取らないのでロジスティック変換と同じく確率の構造をモデル化するのに使われる。

$${\Phi^{-1}(p)=\beta_0+\beta_1x_1+\cdots +\beta_px_p}$$は$${x}$$

$${\iff}$$

$${p=\Phi(\beta_0+\beta_1x_1+\cdots +\beta_px_p)}$$


4-4 変数変換の式導出(おまけ)

■1変数の時

$${X,Y}$$の確率密度関数をそれぞれ$${f_X(x), f_Y(y)}$$と書く。
$${Y=g(X) }$$の関係になっている時の$${f_Y(y)}$$を考える。

①$${g(x)}$$が単調増加の時

$${P(Y < y)=P(X < x)}$$なので

$$
\begin{align*}
f_Y(y)&=\cfrac{d}{dy}\displaystyle \int^y_{-\infty}f_Y(t)dt         \\
&=\cfrac{d}{dy}F_Y(y)                         \\
&=\cfrac{d}{dy}F_X(x) \\
&=\cfrac{d}{dy}\displaystyle \int^x_{-\infty}f_X(t)dt \\
&=\cfrac{dx}{dy}\cfrac{d}{dx}\displaystyle \int^x_{-\infty}f_X(t)dt \\
&=(\cfrac{dy}{dx})^{-1}f_X(x) \\
&=\cfrac{f_X(x)}{g'(x)} \\
\end{align*}
$$

単調増加なので$${g'(x)}$$は非負。

よって

$${g'(x)=|g'(x)|}$$

②$${g(x)}$$が単調減少の時、$${P(Y < y)=P(X > x)=1-P(X \leq x)}$$なので

$$
\begin{align*}
f_Y(y)&=\cfrac{d}{dy}\displaystyle \int^y_{-\infty}f_Y(t)dt         \\
&=\cfrac{d}{dy}F_Y(y)                         \\
&=\cfrac{d}{dy}(1-F_X(x)) \\
&=\cfrac{d}{dy}(1-\displaystyle \int^x_{-\infty}f_X(t)dt) \\
&=\cfrac{dx}{dy}\cfrac{d}{dx}(-\displaystyle \int^x_{-\infty}f_X(t)dt) \\
&=(\cfrac{dy}{dx})^{-1}(-f_X(x)) \\
&=\cfrac{f_X(x)}{-g'(x)} \\
\end{align*}
$$

単調減少なので$${-g'(x)}$$は非正。

よって

$${-g'(x)=|g'(x)|}$$

①②をまとめて

$${f_Y(y)=\cfrac{f_X(x)}{|g'(x)|}=\cfrac{f_X(g^{-1}(y))}{|g'(g^{-1}(y))|}}$$

■2変数の時

1変数の時と大体の流れは似てるけど、重積分の性質を使う。
記号は、4-1で使っていたものと上記の1変数の説明の時のものに倣う。

まず、$${[Z < z, W < w]}$$となる確率$${F_{Z,W}(z,w)=P(Z < z, W < w)}$$について、領域$${[Z < z, W < w]}$$を$${D}$$と表し、$${(z,w)}$$が$${D}$$に含まれる確率を$${P(z,w \in D)}$$と書く。

ここで、$${Z,W}$$は$${X,Y}$$を変換して得られたもの。これは1対1の変換だったので、$${Z,W}$$平面における$${D}$$に対応する領域が$${X,Y}$$平面の方にもある。これを$${D'}$$とし、$${x,y}$$が$${D'}$$に含まれる確率を$${P(x,y \in D')}$$と書く。さらに、$${P(z,w \in D)=P(x,y \in D')}$$である。
簡単に図にすると以下のような感じ。

また、この章でのヤコビアンの定義から$${dzdw = |J(x,y)|dxdy}$$となる。
(これ以降、ヤコビアンは$${J}$$と略記する。)

これらより、

$$
\begin{align*}
F_{Z,W}(z,w)&=P(z,w \in D)                     \\
&=P(x,y \in D') \\
&= \displaystyle \iint_{D'} f_{X,Y}(x,y)dxdy \\
&= \cfrac{1}{|J|}\displaystyle \iint_D f_{X,Y}(s(z,w),t(z,w))dzdw
\end{align*}
$$

見づらいので$${f_{X,Y}(s(z,w),t(z,w))=h(z,w)}$$とおく。
また、積分の領域$${D}$$を、$${[Z < z, W < w]}$$で書き直してみる。
すると、

$${F_{Z,W}(z,w)=\cfrac{1}{|J|}\displaystyle \int^w_{-\infty} \int ^z_{-\infty} h(z',w')dz'dw'}$$

となる。

両辺を$${w}$$と$${z}$$で偏微分すると

$$
\begin{align*}
\cfrac{\partial^2}{\partial z \partial w}F_{Z,W}(z,w)&=\cfrac{1}{|J|} \cfrac{\partial^2}{ \partial z \partial w}\displaystyle \int^w_{-\infty} \int ^z_{-\infty} h(z',w')dz'dw'        \\
f_{Z,W}(z,w) &= \cfrac{1}{|J|}h(z,w) \\
&=\cfrac{f(s(z,w), t(z,w))}{|J(s(z,w), t(z,w))|} 
\end{align*}
$$

が得られる。


この記事が気に入ったらサポートをしてみませんか?