見出し画像

劣Gauss分布の定義

abstract 裾確率を正規分布の裾確率の定数倍で抑えることができる、つまりheavy tailでないような確率分布のクラスの一例として知られる劣Gauss分布について説明します。


Remark 記事が長い関係で目次が折りたたまれています。目次全体を確認したい方は「すべて表示」をクリックしてください。

1 Introduction

劣Gauss分布(sub-Gaussian distribution)は、heavy tailでないような確率分布のクラスの一例です。特に裾確率が必ず正規分布の裾確率の定数倍より小さくなるような確率分布のことです。

劣Gauss分布を数式で定義しておきましょう。以下では、確率変数 $${X}$$ は期待値が $${\mathbb{E}[X]=0}$$ であるとします。また、確率変数 $${Z}$$ は分散が $${\sigma^2}$$ の正規分布 $${N(0,\sigma^2)}$$ に従うものとします。このとき、確率変数 $${X}$$ に対して以下の不等式がどんな $${0}$$ 以上の実数 $${x\geq 0}$$ に対しても成り立つような正の定数 $${c>0}$$ が取れるとき、$${X}$$ が従う確率分布を劣Gauss分布といいます。

$$
\begin{align*}
\mathbb{P}[|X|\geq x] &\leq c\mathbb{P}[|Z| \geq x]
\end{align*}
$$

実は劣Gauss分布には他にも様々な定義の仕方があり、劣Gauss分布の理解を深めるうえで重要です。そこでこのnoteでは、劣Gauss分布の定義と必要十分な条件をいくつか紹介し、証明を与えます。

2 必要十分条件

劣ガウス分布の定義と必要十分な条件を三つ列挙します。なお、①は第1節で挙げた劣ガウス分布の定義そのものです。

① ある正の実数 $${c_1>0}$$ を取ると、どんな$${0}$$以上の実数 $${x}$$ に対しても以下の不等式が成り立つ。ただし、確率変数 $${Z}$$ は分散が $${\sigma^2}$$ の正規分布 $${N(0,\sigma^2)}$$ に従っているとします。

$$
\begin{align*}
\mathbb{P}[|X|\geq x] &\leq c_1\mathbb{P}[|Z| \geq x]
\end{align*}
$$

② $${X}$$ のすべての偶数次モーメントは、正規分布 $${N(0,\tau^2)}$$ の偶数次モーメントの定数倍より小さい。すなわち、ある正の実数 $${c_2>0}$$ を取ると、偶数次モーメントについて以下の不等式が成り立つ。

$$
\begin{align*}
\mathbb{E}[X^{2k}] &\leq c_2(2k-1)!!\tau^{2k}
\end{align*}
$$

③ $${X}$$ のモーメント母関数はある正規分布 $${N(0,\eta^2)}$$ のモーメント母関数で上から抑えることができる。すなわち、どんな実数 $${t}$$ に対してもモーメント母関数 $${M_{X}(t)=\mathbb{E}[\exp(tX)]}$$ に対して以下の不等式が成り立つ。

$$
\begin{align*}
M_{X}(t)&\leq \exp\left[\frac{\eta^2t^2}{2}\right]
\end{align*}
$$

Remark ②の右辺は正規分布 $${N(0,\tau^2)}$$ の偶数次モーメントの定数倍になっています。詳しくはnote [U1]を参考にしてください。

3 証明のための準備

ここでは②→③の証明(4.2節)を考えるうえで知っておくと便利な技術として、確率変数 $${X}$$ の対称化(symmetrization)を紹介します。

3.1 確率変数の対称化

確率変数 $${X'}$$ を $${X}$$ のindependent copyとします。このとき $${Y=X-X'}$$ と定義すれば、$${Y}$$ は $${0}$$ で対称な確率変数になっています。実際、以下のように $${Y}$$ と $${-Y}$$ の累積分布関数が等しいことがわかります。

$$
\begin{align*}
\mathbb{P}[Y\leq t] = \mathbb{P}[X-X'\leq t] = \mathbb{P}[X'-X\leq t] = \mathbb{P}[-Y\leq t]
\end{align*}
$$

そこで、確率変数 $${Y}$$ を確率変数 $${X}$$ の対称化(symmetrization)といいます。

3.2 対称化した確率変数のモーメント母関数

対称化した確率変数 $${Y}$$ は奇数次モーメントが $${0}$$ になるため、モーメント母関数は次のように表すことができます。

$$
\begin{align*}
M_{Y}(t) &= \sum_{k=0}^{\infty}\frac{\mathbb{E}[Y^{2k}]}{(2k)!}t^{2k}
\end{align*}
$$

これはとても重要です。実は以下の補題に掲げるように、対称化前のモーメント母関数 $${M_{X}(t)}$$ は対称化後のモーメント母関数 $${M_{Y}(t)}$$ で上から抑えることができます。しかも、対称化後のモーメント母関数 $${M_{Y}(t)}$$ は偶数次モーメントしか項に現れないため、対称化前のモーメント母関数 $${M_{X}(t)}$$ より不等式評価が簡単になるのです。

補題 確率変数 $${Y}$$ を確率変数 $${X}$$ の対称化とします。このとき、モーメント母関数に対して次の不等式が成り立ちます。

$$
\begin{align*}
M_{X}(t) \leq M_{Y}(t)
\end{align*}
$$

証明 以下のようにして証明できます。

$$
\begin{align*}
M_{X}(t) &= \mathbb{E}[\exp(tX)]\\
&= \mathbb{E}[\exp(tX-t\mathbb{E}[X'])]\\
&= \mathbb{E}[\exp(tX)]\mathbb{E}[\exp(-t\mathbb{E}[X'])]\\
&\leq \mathbb{E}[\exp(tX)]\mathbb{E}[\exp(-tX')]\\
&= \mathbb{E}[\exp(t(X-X'))]\\
&= M_{Y}(t)
\end{align*}
$$

ここで、一式めには $${\mathbb{E}[X]=0}$$ を用いました。また、四式めにはJensenの不等式 $${\exp(-t\mathbb{E}[X'])\leq\mathbb{E}[\exp(-tX')]}$$ を用いました。■

3.3 対称化した確率変数の偶数次モーメント

対称化した確率変数 $${Y}$$ の偶数次モーメント $${\mathbb{E}[Y^{2k}]}$$ は、次のようにして対称化前の偶数次モーメントの $${2^{2k}}$$ 倍で上から抑えることができます。

補題 $${\mathbb{E}[Y^{2k}]\leq2^{2k}\mathbb{E}[X^{2k}]}$$

証明 次のようにして確認できます。

$$
\begin{align*}
\mathbb{E}[(X-X')^{2k}] &= \sum_{j=0}^{k}(-1)^{j}{}_{2k}C_{j}\mathbb{E}[X^{j}]\mathbb{E}[X'^{2k-j}]\\
&\leq \sum_{j=0}^{k}{}_{2k}C_{j}\mathbb{E}[X^{j}]\mathbb{E}[X'^{2k-j}]\\
&\leq \sum_{j=0}^{k}{}_{2k}C_{j}\mathbb{E}[X^{2k}]\\
&= \mathbb{E}[X^{2k}]\sum_{j=0}^{k}{}_{2k}C_{j}\\
&= 2^{2k}\mathbb{E}[X^{2k}]
\end{align*}
$$

ここで二式めには二項定理、三式めには分散の公式と分散が $${0}$$ 以上であることから従う不等式 $${\mathbb{E}[X]\mathbb{E}[Y]\leq\mathbb{E}[XY]}$$ を用いました。■

4 証明

①→②→③→①の順に証明します。

4.1 ①→②の証明

②の定数 $${c_2}$$ と分散 $${\tau^2}$$ をどう取れば良いかを考えます。$${0}$$ 以上の値を取る確率変数に対して、裾確率から期待値を計算する公式を思い出します。$${X^{2k}}$$ は $${0}$$ 以上の値を取る確率変数なので、以下の等式が成り立ちます。

$$
\begin{align*}
\mathbb{E}[X^{2k}] &= \int_0^{\infty}\mathbb{P}[X^{2k}> t]dt
\end{align*}
$$

この式を①の条件を用いて式変形します。

$$
\begin{align*}
\int_0^{\infty}\mathbb{P}[X^{2k}> t]dt &= \int_{0}^{\infty}\mathbb{P}[|X|>t^{1/2k}]dt\\
&\leq c_1\int_{0}^{\infty}\mathbb{P}[|Z|>t^{1/2k}]dt\\
&= c_1\int_{0}^{\infty}\mathbb{P}[Z^{2k}>t]dt\\
&= c_1\mathbb{E}[Z^{2k}]\\
&= c_1(2k-1)!!\sigma^{2k}
\end{align*}
$$

従って、②の定数 $${c_2}$$ は $${c_2=c_1}$$、分散は $${\tau^2=\sigma^2}$$ と取れば良いことがわかりました。

4.2 ②→③の証明

③の分散 $${\eta^2}$$ をどう取れば良いかを考えます。第3節にならって、確率変数 $${X}$$ のindependent copyを $${X'}$$、対称化を $${Y:=X-X'}$$ と表すことにします。このとき、確率変数 $${Y}$$ のモーメント母関数は次のように表すことができるのでした。

$$
\begin{align*}
M_{Y}(t) &=  \sum_{k=0}^{\infty}\frac{\mathbb{E}[Y^{2k}]}{(2k)!}t^{2k}
\end{align*}
$$

ここで、3.3節の補題と②の主張を組み合わせることで、以下の不等式が得られます。

$$
\begin{align*}
M_{Y}(t) &\leq \sum_{k=0}^{\infty}\frac{c_22^{2k}(2k-1)!!\tau^{2k}}{(2k)!}t^{2k}\\
&= \sum_{k=0}^{\infty}\frac{c_22^{k}\tau^{2k}}{k!}t^{2k}\\
&= \sum_{k=0}^{\infty}\frac{c_2}{k!}\left(2\tau^2t^2\right)^{k}\\
\end{align*}
$$

従って、$${c_2\geq1}$$ の場合には $${\eta^2=4c_2\tau^2}$$、$${c_2<1}$$ の場合には $${\eta^2=4\tau^2}$$ と取れば、

$$
\begin{align*}
\sum_{k=0}^{\infty}\frac{c_2}{k!}\left(2\tau^2t^2\right)^{k} &\leq \sum_{k=0}^{\infty}\frac{1}{k!}\left(\frac{\eta^2t^2}{2}\right)^k\\
&= \exp\left[\frac{\eta^2t^2}{2}\right]
\end{align*}
$$

が得られ、3.2節の補題と組み合わせれば③が確認できます。

4.3 ③→①の場合

①の定数 $${c_1}$$ と分散 $${\sigma^2}$$ をどう取れば良いかを考えます。③にChernoffの不等式と平方完成を用いると、$${X}$$ の裾確率を次のように抑えられることがわかります。

$$
\begin{align*}
\mathbb{P}[X>x] &\leq \frac{\mathbb{E}[\exp(tX)]}{\exp(tx)}\\
&= \exp\left[\frac{\eta^2t^2}{2}-tx\right]\\
&= \exp\left[\frac{\eta^2}{2}\left(t-\frac{x}{\eta^2}\right)^2-\frac{x^2}{2\eta^2}\right]\\
&\leq \exp\left[-\frac{x^2}{2\eta^2}\right]
\end{align*}
$$

ここで、相補誤差関数とGauss関数の間に以下の不等式が成り立つ[U2]ことに注意します。

$$
\begin{align*}
\sqrt{\frac{e}{2\pi}}\exp(-2x^2) &\leq \operatorname{erfc}(x)
\end{align*}
$$

この結果、

$$
\begin{align*}
\mathbb{P}[X>x] &\leq \exp\left[-\frac{x^2}{2\eta^2}\right]\\
&\leq \sqrt{\frac{2\pi}{e}}\operatorname{erfc}\left(\frac{x}{2\eta}\right)\\
&= 2\sqrt{\frac{2\pi}{e}}\mathbb{P}\left[Z\geq x\right]
\end{align*}
$$

ただし、$${Z\sim N\left(0, 2\eta^2\right)}$$ です。これは $${\mathbb{P}[X<-x]}$$ に対しても同様に成り立ちます。従って、$${c_1=\displaystyle2\sqrt{\frac{2\pi}{e}}}$$ かつ $${\sigma^2=2\eta^2}$$ と取れば ①が成立することがわかります。

Remark Chernoffの不等式は、Markovの不等式を以下のように変形したもののことです。$${t>0}$$ とします。

$$
\begin{align*}
\mathbb{P}[X>x] = \mathbb{P}[\exp(tX)>\exp(tx)] &\leq\frac{\mathbb{E}[\exp(tX)]}{\exp(tx)}
\end{align*}
$$

最後の不等式にMarkovの不等式を用いました。■

Acknowledgement

日頃からサポートしていただいている方々、株式会社すうがくぶんかの皆さんに感謝申し上げます。

References

[W] Wainwright, Martin J. High-dimensional statistics: A non-asymptotic viewpoint. Vol. 48. Cambridge university press, 2019.
[U1] Uchiba, Takayuki. "モーメントが満たす関係式." note, 2023.
[U2] Uchiba, Takayuki. "相補誤差関数とGauss関数." note, 2023.


サポートをいただいた場合、新たに記事を書く際に勉強する書籍や筆記用具などを買うお金に使おうと思いますm(_ _)m