見出し画像

統計学を装備する!8 〜確率分布概要〜

昨晩は酔っ払って(なんや、結局こういう学問全然わからんやん。これ統計学の入り口なんやろ?こんな入り口でこんなにもわからんてもうアカンやん。。けっ!どうせ俺なんざ、、)とか脳内で愚痴っていたら、なんか降りてきたのよ。総帥が。それで書いちゃった!(心臓)(テヘペロス顔)

さて気を取り直してやるぞよ。
間違っていてもいい、その間違いは成長する機会を得たに等しい。
ビビるな凹むな喜べ。

あっ、、、、いやいい。


統計学にて確率分布を使っていくとは?

なにか解決したい問題がある。解決するために必要なデータを収集する。
(なんのデータを収集するか決めるのが最重要。人間の仕事)
そして、そのデータセットをモデル化する。以下の手順で。

1. データの可視化:
データを度数分布表ヒストグラムなどを使って可視化し、どのような形状の分布になっているかを確認する。例えば、ヒストグラムが左右対称でベル型の形状をしているなら、正規分布の可能性があり。

2. 基本的な統計量の確認:
平均値分散標準偏差などの基本統計量を計算し、データの中心傾向やばらつき具合を確認する。これによって、どの確率分布が適しているかの候補が絞り込まれる。

3. 分布の仮定:
データがある特定の確率分布に従っていると仮定する(例: 正規分布ポアソン分布など)。データの形状や分散の傾向に基づいて、どの分布が適切かを考える。

4. フィッティング(当てはめ):
仮定した分布モデルに対して、実際のデータを当てはめる。これは、「パラメータ推定」とも呼ばれ、分布モデルのパラメータ(例えば正規分布なら算術平均標準偏差)を推定する。これにより、データが仮定した分布にどの程度適合しているかを確認する。

5. 適合度の検定:
モデルの適合度を評価する。カイ二乗検定コルモゴロフ・スミルノフ検定などの統計的手法を使って、データが仮定した分布にどれくらい合っているかを確認する。

6. 予測や推論:
選んだ分布モデルに基づいて、未来のデータの動きや発生確率を予測する。例えば、正規分布に当てはまるデータセットであれば、算術平均標準偏差に基づいて、一定の範囲内で次にどのような値が現れるかを予測することがでる。

すなわち、モデル化とは収集したデータセットを基に最適な確率分布モデルを選び、そのモデルの特性を利用して予測や分析を行うプロセスのこと。

具体的なモデル化のシナリオ:
ある商品の売上データを集めてヒストグラムを作成したところ、その形状がポアソン分布に似ている場合、このデータが「単位時間あたりの売上件数」のモデルとしてポアソン分布を仮定する。その後、過去のデータからポアソン分布のパラメータ 𝜆 λ(平均発生率)を推定し、未来の売上件数を予測できるようになる。 

さて概要がわかったところで、確率分布モデルや統計的手法というのを学んでいきましょうかって感じか。ちょっと頭が整理されたぜ。


統計学でよく使われる確率分布の種類

ちょっとCHATGPTに聞いてみた。これはCHATGPTだけの情報だが、こういう世界的に広く知られているような情報はあまりウソをこかないようなので信じることにする。ただ数式とかはチェックしないといかん気がする。まあとにかく基礎知識をいれないと。使っていく上で間違っていたら修正すればいいしその方が頭に定着するだろう。(ちなみに人の命とかかかっていたらこういうやり方はダメなんだろうなあ)

以下代表的な確率分布と用途。

1. 正規分布(Normal Distribution)
主な用途
: 多くの自然現象やデータセットが正規分布に近似することが多いので、統計分析における基礎的な分布です。特に平均値の推定や標準偏差の計算に頻繁に使われます。
: 人の身長、体重、テストの点数。

2. t分布(Student's t-Distribution)

主な用途: サンプルサイズが小さい場合の平均値の推定や、サンプルの標準誤差が不確かであるときに使われます。t検定信頼区間の計算に重要です。: 小規模なサンプルから母集団の平均を推定するとき。

3. カイ二乗分布(Chi-Square Distribution)

主な用途: 独立性の検定(カイ二乗検定)や、分散分析(ANOVA)など、データの集計や比率を分析するために使われます。また、標本分散の推定にも使われます。
例: 2つのカテゴリ変数の独立性を確認するとき(例えば、性別と喫煙習慣の関係)。

4. 二項分布(Binomial Distribution)

  • 主な用途: 成功か失敗という二項試行(コインの表裏、テストの合格不合格など)の結果を扱う場合に使われます。成功率や割合を分析する場合に重要です。

  • : コインを10回投げて表が出る回数の分布。

5. ポアソン分布(Poisson Distribution)

  • 主な用途: 一定の時間や空間内での事象の発生回数を扱います。事象がランダムに発生し、希少である場合に特に適用されます。

  • : 1時間に起きる交通事故の回数、ある顧客サービスセンターに来る電話の回数。

6. 指数分布(Exponential Distribution)

  • 主な用途: 次に事象が発生するまでの時間をモデル化します。待ち時間や寿命分析に使われます。

  • : 次に壊れる機械部品までの時間、次の電話の着信までの待ち時間。

7. フィッシャー分布(F-Distribution)

  • 主な用途: 分散分析(ANOVA)や、2つの分散が等しいかどうかの検定に使われます。複数のグループ間の平均の差異を分析する場合に頻繁に使用されます。

  • : 3つ以上のグループの平均の違いを比較する。

8. 幾何分布(Geometric Distribution)

  • 主な用途: 最初の成功までの試行回数を扱います。特に二項試行における成功までの試行数をモデル化します。

  • : 最初に当たりくじを引くまでのくじの回数。

9. ワイブル分布(Weibull Distribution)

  • 主な用途: 信頼性解析や寿命データのモデリングで使われ、特定の製品やシステムの故障率を予測する際に適用されます。

  • : 製品の故障予測、耐久性分析。

10. 多項分布(Multinomial Distribution)

  • 主な用途: 複数のカテゴリーに分けられたデータを扱う際に使われます。たとえば、ある試行で出現する複数の結果が考えられる場合に使用します。

  • : アンケートでの複数選択肢への回答の分布。

以上 では次回から正規分布からやろうかね。
10個全部やっていくかは未定、やっとかないと統計学の習得が進まないのならやらないといけないし、知っといたら便利よ~くらいなら必要に応じてやる。


おまけ

今の確率分布10個に二つ名をつけてみた。(もちろんCHATGPTに要領伝えて作成)

1. 正規分布(Normal Distribution)

「調和の守護者・バランシス」
平均値を中心に左右対称の調和を持ち、すべてが均等に整う分布の象徴。

2. t分布(Student's t-Distribution)

「小規模の審判者・ティスティリア」
少ないデータでも信頼性をもたらす、厳正な審判者。少数のサンプルに強い。

3. カイ二乗分布(Chi-Square Distribution)

「真実の照明者・エクレア」
データの真偽を明らかにし、期待値との違いを明確にする検証の光を放つ。

4. 二項分布(Binomial Distribution)

「二者択一の決断者・デュエリスト」
成功か失敗か、勝つか負けるか。二択の世界で勝負する決断の勇士。

5. ポアソン分布(Poisson Distribution)

「突発の訪問者・シルフール」
突如として現れる稀少な事象の連続。予期せぬ瞬間に訪れる出来事の象徴。

6. 指数分布(Exponential Distribution)

「時を操る者・クロノティカ」
次の事象が訪れるまでの時間を操り、待つ者に静寂と期待を与える時の管理者。

7. フィッシャー分布(F-Distribution)

「統一の裁定者・インクワイリス」
複数のグループ間の違いを明らかにし、調和を求める者たちの裁定を下す存在。

8. 幾何分布(Geometric Distribution)

「不屈の挑戦者・レジナス」
最初の成功までの道のりを粘り強く歩み続ける、不屈の魂を持つ挑戦者。

9. ワイブル分布(Weibull Distribution)

「寿命の予見者・エテルノス」
故障や寿命を見通し、物事の終焉を予測する未来を見通す予見者。

10. 多項分布(Multinomial Distribution)

「選択の魔術師・ポリファリア」
多様な選択肢の中から未来を導く、多くの結果を同時に見通す選択の魔術師。

お!イイ!w この確率の十賢者を駆使して統計学を華麗に装備す!

この記事が気に入ったらサポートをしてみませんか?