統計学入門

 近頃、高校の数学に統計学的要素が加わるといったニュースを目にしました。また教育分野以外でも、ITビジネスなどにおいて統計学が盛んです。文理関係なく必要とされるこの学問は果たしてどういったものなのでしょうか?今回は、少しだけ統計学の要素を書いていきたいと思います。(ちなみに、きちんと説明しようとするとゴリゴリの数式が出てくるので言葉だけで説明します。)

 さて、仮に「世界の平均所得」を知りたいとしましょう。つまり、対象は約70億人です。一人一人調べることは絶対できません。そこで統計学的手法として、無作為に抽出した集団で平均値を探る方法をとります。このとき、抽出前の集団を「母集団」、抽出後の集団を「標本」といいます。

ここからがポイントです。標本のそれぞれの値は、「確率変数」なんです。無作為とはいえ何らかの確率で母集団から引っ張ってきた値だからです。従って、この標本の分布は、いつもの棒グラフのように値の分布ではなく「確率分布」を表しています。要は、「選んできた値を棒グラフ(縦軸:人数、横軸:所得)に整理して棒が一番高い所の人たちが一番多いんだから、母集団から引っ張られる確率が一番高いでしょ。縦軸を確率にしてもグラフは似た形でしょ。」ということです。

 一つ疑問が出てきます。それは、毎回毎回標本のグラフ(確率密度関数といいます。)が同じ形をするわけないから、母集団の平均の推定値にもブレが出るのではないか、ということです。しかし、昔のお偉いさん方はこの問題を解決してしまいました。「中心極限定理」というものです。この定理を使えば、標本の数が十分に大きいときその確率密度関数が、
「標準正規分布」に従うとされています。この標準正規分布というのは、平均0、分散1の確率分布のことです。(ちなみにこの定理は、母集団も十分に大きい「無限母集団」、つまり標本抽出の際の確率に影響を与えない位の数の母集団を前提とします。)ざっくりいうと、「どんな標本でもある一つのグラフの形になる」という恐ろしく便利な定理です。数学者からすれば、一つの公式で様々な問題を解決できるようになった訳です。

 もちろん中心極限定理だけで、統計学のすべての問題を解決できる訳ではありません。(数学のテスト直前に公式を一つだけ覚えて満点を取った人は誰もいないでしょう。)そもそも、母集団の分散(データの散らばり具合)がわからないことはよくありますし、仮にめでたく標本から平均を導き出したところで、本当に母集団の平均に近い値になっているのかも定かではないのです。こうした問題を解決するために、標準正規分布以外の確率分布や、計算結果をどのくらいの確率で信用していいか判断する計算方法もすでに編み出されています。複雑なデータを分析するためには、いくつもの処理方法を学ぶ必要があるということです。皆さんも辛抱強くチャレンジしてみませんか?

この記事が気に入ったらサポートをしてみませんか?