見出し画像

Pythonを用いた機械学習8日目


今回から3回に分けて「確率」について学んでいく。試行や事象といった確率の考え方(①)と、離散型・分散型などがある確率変数や期待値をふくむ確率分布(②)についてまとめる。ということで今回からPythonからは少し離れて、統計学の基礎を固める。

前回の学習内容はこちら。標準化と様々なデータの分布についてまとめている。


1.確率の考え方

・サイコロを振ったときに、どの目がでるかを調べるときに使われる。

 例えば、サイコロを投げて、偶数の目が出る確率は次の式で求められる。

スクリーンショット 2020-05-17 14.30.04

試行」・・・サイコロを投げる

事象」・・・サイコロの目が1つに決まる


・事象Aが起こる確率は以下の式で求められる。

スクリーンショット 2020-05-17 14.33.32


確率が正しいかどうか確かめるには、試行を何回も繰り返す。


統計的確率」・・・何度も試行を繰り返した場合に得られる事象の割合

数学的確率」・・・数学的に求める確率


2.確率分布

確率変数」・・・サイコロの目のように、確率的に値が決まる変数のこと。サイコロを投げたときに出た目をXとすると、Xは確率変数である。

確率分布」・・・確率変数のとる値と、それに対応する確率との対応のこと。

確率分布表」・・・確率分布を表で表したもの。

↓確率分布表

スクリーンショット 2020-05-17 14.44.22

↓一般の確率分布表

スクリーンショット 2020-05-17 14.54.04

期待値(expected value)」・・・ある試行を行ったとき、その結果として得られる数値の平均値のこと。

↓期待値はこのように表す

スクリーンショット 2020-05-17 15.02.47

↓分散(variance)はこのように表す

スクリーンショット 2020-05-17 15.09.55

なお、分散は平均との差を2乗した値の合計をデータの個数で割って算出した値なので、下のように書くこともできる。

スクリーンショット 2020-05-17 15.12.58

これを変形して

スクリーンショット 2020-05-17 15.14.10

この式を使うと簡単に計算ができる。


・「離散型」・・・値がとびとびになっている確率変数のこと

・「連続型」・・・値と値の間に取りうる値が無限にある確率変数のこと

連続型の確率変数の場合、その分布を表にまとめることは難しい。統計的確率の場合は度数分布表を用いる場合もあるが、数学的確率の場合は「確率密度関数」を使う。

・平均(μ)、分散(σ^2)の正規分布は次の式を満たす

スクリーンショット 2020-05-17 15.46.45

ただし、連続型の場合、確率変数の値xを直接指定はせずに、確率密度関数のグラフにおいて、確率変数の範囲を指定して、その面積を求める。

スクリーンショット 2020-05-17 15.55.41

・「標準正規分布」・・・標準化を行って平均を0、標準偏差を1にした正規分布


実は前回から、TeXclip v3.0を使って数式を書いている。とても時間がかかったが複雑な数式をきれいに表現できるので、これからも積極的に活用したい。慣れたら、数式を入力する作業も早くなるかな^^


次回は、同時確率と条件付き確率について学ぶ。






よろしければサポートお願いします。いただいたサポートを皆さんに還元していきたいと思っております。