統計学について

2記事目は統計学について書きます。平均値や中央値と言った基礎的なところよりも統計学の概念について書いていきます。今回の記事はかなり短いです。(またpythonで統計学もやる予定です。)

1.統計学とは何か

さて、統計学とはなんでしょうか。データの要約、予測、測定などいろいろな手段として使われます。では統計学はどのような分野で用いられるでしょう。以下の主に四つの分野だと思います。

・コンピュータサイエンス
・数学
・確率論
・データサイエンス

統計学にも種類があります。

・記述統計学(descriptive statistics)
・推測統計学(inferential statistics)
・ベイズ統計学(bayesian statistics)

記述統計学とは、データの特徴を簡単に分かりやすく表現すると言う方法です。集めたデータから表やグラフを作成したり、平均や中央値と言った情報を調べます。要約・測定に当てはまりますね。

推測統計学とは母集団(全体のデータ)から標本(一部のデータ)を抜き出して取り出したデータの特徴から母集団の特徴を推測する方法です。

この二つはどのように使い分けるべきでしょうか。恐らく今まで使用してきたのは記述統計学の方だと思います。しかし記述統計学にも限界があります。数学のテストではクラスの平均点や身長の平均を求めよと言った問題がありました。これが世界中の男性の平均身長だとしたらどうでしょう。全てのデータを集めるなんで不可能ですよね。また一年後の日本の人口を求めよと言っても記述統計学の範囲では無理ですね。

母集団が大きすぎたり未来のことを推測するのは記述統計学では無理です。それらの記述統計学の弱点を克服したのが推測統計学です。記述統計学では母集団と標本の区別をしていませんでした。推測統計学では推定や回帰といったことを行いますが、ここら辺の手法はあとで別で記事を作成します。

さて推測統計学や記述統計学をするデータが必要です。データとはとは何でしょう。大きく分けて質的データ量的データに分けるkとができます。

質的データ(qualitative):分類や種類を区別するためのデータで、演算ができない変数。また質的データの種類として次のように分類できる。(categorical dataとも言う)
ordinal(順番がある):順序に意味がある
例:テストのランキング
nominal(名前がある):順序に意味がない
例:性別、血液型、名前

量的データ(quantitative):数値として意味が(つまり演算可能)あり、測定可能(Numerical & measurable)
連続的(Continuous):データの比率に意味があり、ゼロが何もないことを意味するデータ
例:体重、身長
離散的(Discrete):データの間隔に意味があり、ゼロが一つの状態を意味する。
例:サイコロの目、年齢

以上が統計学の基礎的な概念です。次回は記述統計学について触れていきます。




この記事が気に入ったらサポートをしてみませんか?