確率・統計：ベルヌーイ分布、二項分布、カテゴリカル（マルチヌーイ）分布、多項分布

澁谷直樹

2022年11月19日 15:59

この記事で扱う確率分布

この記事で扱う分布は全て有限の事象を扱う。

コインの裏表とかサイコロの目とかで例えることができる確率の分布になる。

値が連続ではないので離散分布とも呼ばれる。

その中でも、多項分布が最も包括的な分布。

多項分布がわかると二項分布やカテゴリカル（マルチヌーイ）分布が導き出せる。

さらに二項分布かカテゴリカル分布からベルヌーイ分布も導き出せる。

でも、これらを理解するにはベルヌーイ分布から積み上げていった方が分かりやすい。

ベルヌーイ分布

コインを放り投げるとpの確率で表が出るとする。普通はpが50％と仮定するがそれはここでは本題ではない。

コインが表になる確率pを以下のように表現する。表記の仕方は色々あるがこの記事ではこうしている。

$$
\text{Ber}(X=1) = p
$$

ここで、X=1は表、X=0は裏としている。それ以外の値はない。

縦に立つかもしれないとか実際にはあり得ても考えない。

裏か表しか出ない理想のコインで思考実験していると思って欲しい。

よく、$${P(X=1)=p}$$と定義されるがPを使うと他の確率と紛らわしいのでBerとして明確に区別した。

また、Berでは一つの確率pが必ず必要なので明記せずに暗黙の了解としている。表記を簡単にするため。

必要ならば、$${Ber(X=1;p=0.5)}$$などと明示すれば良い。

もちろん、確率ppの値は$${0≤p≤1}$$の範囲内でなければならない。

なお、Xは確率変数と呼ばれる。確率変数は大文字で書かれることが多いのでここでもそうしている。

「変数」であるが、実際には関数のような動きをする。Xの値はXが従う確率分布からランダムに返される。

可能な値が表（X=1）か裏（X=0）しかないので、裏が出る確率は、

$$
\text{Ber}(X=0) = 1 \, – \, p
$$

となる。

ベルヌーイ分布の定義

コイン投げで裏か表かどちらかが出る確率を一つの確率関数にまとめると、

$$
\text{Ber}(X=x) = p^x(1-p)^{1-x}, \quad x \in {0, 1}
$$

となる。X=1とX=0をそれぞれ代入して上述した確率になることを確認して欲しい。

この二者択一の確率分布をベルヌーイ分布（Bernoulli Distribution）と呼ぶ。分布といってもx軸には0か1しかなく、縦軸は$${p}$$と$${1-p}$$のみである。

ベルヌーイ分布の期待値

変数Xがベルヌーイ分布に従う時のXの期待値は、

$$
\begin{align*}
E_{X \sim \text{Ber}}[X] &= \sum_{x \in \{0, 1\}} \text{Ber}(X=x) \cdot x \\
&= \text{Ber}(X=1)\cdot 1 + \text{Ber}(X=0) \cdot 0 \\
&= p
\end{align*}
$$

$${E_{X∼Ber}}$$としているのは、期待値を求める確率変数Xがベルヌーイ分布に従うことを意味する。

期待値がpになるとは、コインの例でいえば、コインが表になる確率が期待値になるということ。

直感的な解釈は、「何度も繰り返しコインを投げて表（X=1）と裏（X=0）が出た回数から表が出る回数の平均を計算すると大体pぐらいになる」といった意味。それが確率なのだから身も蓋もないが。

こうなるように裏を0と定義しているとも言える。

ちなみに、$${E_{X∼Ber}(X)}$$ではなくて$${E_{X∼Ber}[X]}$$と角括弧を使っているのは、期待値を求める関数Eは入力される確率変数Xが従う分布によって決まることを明示するため。

Xは確率関数に従うので、Eは関数できまる関数になっており、EそのものはXの中身に関わらず共通になる。

よって全ての分布に対して期待値の計算では同じ記号Eを使える。

一般に、期待値は確率分布をPとすると、

$$
E_{X \sim P}[X] = \sum\limits_{x} P(X=x) \cdot x
$$

と書ける。

つまり、関数Eは汎関数（関数の関数）になる。英語では汎関数はfunctionalと呼ばれる。

まあ、これも人によって表記の仕方が違うが、ここではそうしている。

ベルヌーイ分布の分散

確率変数Xが確率分布Pに従うとすると、Xから返される値の分散は、

$$
V_{X \sim P}[X] = \sum\limits_{x} P(X=x) (x-E[X])^2
$$

と書ける。VはVariance（分散）から。

$${V_{X∼P}}$$でXがPに従うと定義されているので、分散の定義にあるE[X]をわざわざ$${E_{X∼P}[X]}$$とは書かないことにした。これも、明記が必要ならば書き足せばよい。

以上より、確率変数Xがベルヌーイ分布に従う時のXの分散は、

$$
\begin{align*}
V_{X \sim \text{Ber}}[X] &= \sum_{x \in \{0, 1\}} \text{Ber}(X=x) (x-E[X])^2 \\
&= \text{Ber}(X=1)(1-p)^2 + \text{Ber}(X=0)(0-p)^2 \\
&= p(1-p)^2 + (1-p)p^2 \\
&= p(1-p)
\end{align*}
$$

となる。

コインの例でいうと、分散は表の確率と裏の確率の積になる。

p=0.5だと分散が一番大きい。pで分散を微分して最大値になる値を求めればわかる。

p=1.0かp=0.0だと分散は0になる。毎回同じ結果になるから。

ベルヌーイ分布は非常に簡単だがよく出てくる。後で紹介する「独立」など確率の基本概念が詰まっている。

また、二項分布の期待値や分散の計算で役に立つ。

ここから先は

10,537字 / 4画像

キカベン・読み放題

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング、量子コンピュータ関連の用語の解説、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

ログイン

この記事が気に入ったらサポートをしてみませんか？