見出し画像

統計とはなにか?どのようなことができるか?

こんにちは。
株式会社RocketsでTechLeadをしているtagtyです。
先日、社内勉強会で統計の話をしたので、その内容をまとめました。

内容は主に完全独習 統計学入門を参考にしています。

統計とはなにか?

はじめに、統計とは何でしょうか?
統計とは、ある集団について、その特性を数量的に測って得られる数値のことです。
たとえば、得られたデータから特徴を抜き出したものや、一部のデータから全体を推測したものなどがあります。

なぜ統計を使うのか?

では、なぜ統計を使うのでしょうか?
それは、生データではなにかを導き出すのが難しいからです。

生データとは何でしょうか?
生データとは、データの羅列のことです。

企業の従業員数を例に示します。

生データ

データの羅列を眺めるだけでは、何かを導き出したり、意味を理解したりすることが難しいです。

では、どうすればデータの意味を理解することができるのでしょうか?

記述統計

データの意味を統計的に記述する方法として、記述統計があります。

度数分布表

はじめに、度数分布表を紹介します。
度数分布表は、ある集団のデータをいくつかの階級に分け、それぞれの階級でデータがいくつあったかを数え、表にしたものです。

度数分布表

ヒストグラム

つぎに、ヒストグラムを紹介します。
ヒストグラムは度数分布表をグラフにしたものです。
ヒストグラムを見ることで、データの分布がわかります。

ヒストグラム

統計量

つぎに、統計量について説明します。
統計量とは、一組の標本データに目的に応じた統計学的なアルゴリズムを適用し、得たデータの特徴を要約した数値です。
代表的な統計量を紹介します。

1.平均値
平均値は、合計をデータ数で割ったものです。

2.偏差
偏差は、データの数値から平均値を引いたものです。

偏差

3.分散
分散は、偏差の2乗の合計をデータ数で割ったものです。
データが平均値の周辺にどのくらいの広がりや散らばりを持っているかがわかります。
分散同士は比べることはできますが、分散と平均などを比較することはできません。

4.標準偏差
標準偏差は、分散の二乗根をとったものです。
こちらも分散と同様に、データが平均値の周辺にどのくらいの広がりや散らばりを持っているかを示します。
標準偏差は、分散と違って、平均などと比較が可能な数値になっています。

分布

つぎに、分布を紹介します。
代表的な分布に正規分布があります。
正規分布は、データが平均値の付近に集積するような分布です。
人間や生物の身長のデータや株の収益率のデータは正規分布であると言われています。

推測統計

つぎに、推測統計を紹介します。
推測統計は、母集団から抽出した標本の情報を用いて、母集団の情報を推測する統計的手法です。

全体を把握しきれないほど大きな対象や、まだ起きておらず未来に起きることに対して推測することができます。
全体を把握しきれないほど大きな対象の例には、選挙速報などがあります。
開票率が数パーセントの段階で当選確実を報道できるのは、推測統計によるものです。
まだ起きておらず未来に起きることの例には、地球温暖化の予想や株価の予想などがあります。

推測統計の例として、統計的仮説検定を紹介します。
統計的仮説検定の説明は、以下の記事を参考にしています。

区間推定

統計的仮説検定のまえに、区間推定について説明します。
区間推定は、標本データの母平均などの推定量の入る区間(幅)の推定のことです。
このときの区間を信頼区間といいます。
母平均の区間推定では、95%信頼区間を求めることが多いです。
95%信頼区間とは、母集団から標本を取ってきて、その平均から95%信頼区間を求める、という作業を100回やったときに、95回はその区間の中に母平均が含まれることを指します。

統計的仮説検定

つぎに、統計的仮説検定について説明します。
統計的仮説検定は、母集団分布の母数に関する仮説を標本から検証する推測統計のひとつです。

統計的仮説検定は以下のような手順で実施します。

  1. 仮説を設定する

  2. 有意水準を決定する

  3. 検証する

  4. 背理法を用いて結論を導く

1.仮説を設定する
仮説は、導き出したい結論とは反対の仮説を設定します。

2.有意水準を決定する
有意水準とは、設定した仮説が間違っていると判断する(仮説を棄却する)確率のことです。
有意水準を0.05に設定した場合、5%以下の確率で生じる現象は、非常にまれなことであるとします。

3.検証する
設定した仮説が正しいとした場合、データから仮説が実現する確率を導いて、検証します。
仮説が実現する確率を導くために、検定統計量を算出します。

上述の記事では、検定統計量Zから、P値を取得しています。
P値とは、検定統計量がその値となる確率のことです。
P値が小さいほど、検定統計量がその値となることはあまり起こりえないことを意味します。
P値が有意水準0.05よりも小さい場合は、設定した仮説のもとで観察された事象が起こることは非常にまれなことであると判断できます。

4.背理法を用いて結論を導く
設定した仮説のもとで観察された事象が起こることは非常にまれなことであると判断できた場合は、設定した仮説が棄却できます。
すなわち、導き出したい結論が正しいとすることができます。

その他の推測統計

統計的仮説検定以外にも推測統計はあります。
ここでは、その他の推測統計を簡単に紹介します。

1.有意性検定
有意性検定は、調査結果から得られたある2つの値の差が、統計的に信頼できるものであるのか、もしくは偶然のものであるのかを判定する検定です。

2.統計的分類
統計的分類は、統計的手法を用いて、データを複数のクラスに分類することです。

3.回帰分析
回帰分析は、結果となる数値と要因となる数値の関係を調べて、それぞれの関係を明らかにする統計的手法です。

まとめ

この記事では、統計とはなにか、どのようなことができるかについて説明しました。
統計の概要を説明し、記述統計と推測統計の具体的な例を示しました。
最後まで読んでいただき、ありがとうございました。

この記事が気に入ったらサポートをしてみませんか?