確率統計:期待値、期待二乗誤差、期待絶対誤差

確率質量関数、確率密度関数

離散的確率変数$${x}$$の従う確率$${Pr(x)}$$が、ある関数$${f(x)}$$とかける時、$${f(x)}$$を確率質量関数とよび、
$${Pr(x)=f(x), \ f(x)\ge0 : \forall x, \ \sum_x f(x)=1}$$
である。
$${x}$$が連続的確率変数だった場合、$${a\ge x \ge b}$$である確率は確率密度関数を$${f(x)}$$として、
$${Pr(a\ge x \ge b)=\int^b_a f(x) dx, \ f(x)\ge0 : \forall x, \ \int f(x)dx=1}$$
で与えられる。

期待値

確率変数の期待値は、$${f(x)}$$の重み付き平均で計算され、確率分布の真ん中を示す指標となる。
$${E[x] =\displaystyle{\begin{cases}\sum_x xf(x) & \text{離散型}\\\int_x xf(x)dx & \text{連続型}\end{cases} }}$$
また、中央値とは$${f(x)}$$の左側50%に対応する点で、$${Pr(x\le b)=\frac{1}{2}}$$なる$${b}$$であり、$${\alpha}$$分位点$${(0<\alpha<1)}$$とは、$${f(x)}$$の左側から$${100\dot \alpha}$$%に対応する点で、$${Pr(x\le b)=\alpha}$$なる$${b}$$のことである。
最頻値とは、$${f(x)}$$を最大にする$${x}$$である。
確率変数$${x}$$の任意の関数$${g(x)}$$の期待値は、
$${E[g(x)]=\displaystyle{\begin{cases}\sum_x g(x)f(x) & \text{離散型}\\\int_x g(x)f(x)dx & \text{連続型}\end{cases} }}$$
で与えられ、これから、
$${E[c]=c}$$
$${E[x+c]=E[x]+c}$$
$${E[cx]=cE[x]}$$
となることがわかる。

期待二乗誤差

$${E[(x-y)^2]=\int^b_a (x-y)^2 f(x)dx}$$で与えられ、これを$${y}$$で微分すれば、$${\displaystyle{\frac{d\ E[(x-y)^2]}{d y}=2\int(x-y)f(x)dx=2(E[x]-y)}}$$となり、よって$${y}$$が$${x}$$の期待値$${y=E[x]}$$で最小となる。

期待絶対誤差

$${E[|x-y|]=\int^b_a |x-y| f(x)dx}$$で与えられ、これを最小にする$${y}$$は$${x}$$の中央値である。
同様に
$${|x-y|_\alpha=\displaystyle{\begin{cases}(1-\alpha)(x-y) & x>y \\ \alpha(y-x)& x\le y\end{cases} }}$$
として、
$${E[|x-y|_\alpha]=\int^b_a |x-y|_\alpha f(x)dx}$$を最小にする$${y}$$は$${x}$$の$${\alpha}$$分位点である。



この記事が気に入ったらサポートをしてみませんか?