G検定 / 統計検定 確率分布 #2

株式会社リュディアです。引き続き確率分布についてまとめていきます。

前回までの確率分布についてのまとめへのリンクは以下を参考にしてください。

確率変数離散値連続値かで、離散確率分布連続確率分布に区別することは前回にまとめました。離散とは数字が飛び飛びであることで、たとえば確率変数としてサイコロの出目を考えると確率変数は離散であり、その確率分布は離散確率分布になります。サイコロの出目を例として確率変数 X と確率 P(X) を表にまとめてみました。これは表形式の確率分布と言えます。

画像1

ここで確率変数 X がある特定の値 x をとった場合に確率がいくつになるかを求める関数を考えます。離散確率変数ではそのような関数を確率質量関数と呼びます。サイコロの出目を例にして数式で書くと以下のようになります。

画像2

いきなりこの数式を見せられるとよくわからないと思うので、以下にばらした数式を書いておきます。

画像3

これならわかりますよね。どの値をとったとしても確率 1/ 6 になる関数です。

では次に連続確率変数連続確率分布について見てみます。連続とはコストを無視すればいくらでも精度良く細分化できることとであると説明しました。いま確率変数として温度を考えてみます。今、7月10日の 13:00 の気温を考えます。気温に対して確率分布が以下のようになっているとします。手書きなので少しカクカクしているのと現実の気温とずれがあるのは許してください。

画像4

気温が20度より少し高いあたりが最も確率が高くなる様子はわかると思います。ここで横軸の気温が確率変数になるのですが連続値なので特定の1点を指定することができません。一点を指定したつもりでもさらに拡大して見ていくと細かいメモリが出現する様子をイメージしてください。そのため連続確率変数を扱う場合は範囲を指定します。以下の図のようなイメージです。

画像5

数式で書くと以下のようになります。

画像6

ここで f(x) を確率密度関数と言います。

ここまでで離散連続、それぞれの場合の確率変数確率分布について説明してきました。表にまとめると以下のようになります。

画像7

いかがでしょうか?整理できましたか?この2回でまとめた言葉の定義は重要です。教科書でもいい加減な記述が散見されますが、皆さまにはしっかりと理解していただきたいと思います。

G検定 / 統計検定 確率分布に関するまとめの続きは以下からどうぞ。

では、ごきげんよう。


この記事が気に入ったらサポートをしてみませんか?