春から統計を学びたい人へ、最初の一歩
4月も半分くらいが過ぎました。我が家では、娘がとうとう大きなくくりでは高学年になり、小学校生活も折り返しです。新しいクラスで、今年からはChromeBookを使った学習も始まるらしく新しい生活が始まっています。
新しい生活の中、春から統計を学びたいなという人に向けて学びのきっかけになるものをご紹介できればと思います。
統計とは?
統計とは何でしょうか? 私の中では
集めた、集まったデータを①理解して(解釈して) ②一般化して ③活用すること
と考えています。
もう少し補足していきます。
①データの理解
最初のデータの理解に関して、データは集まれば集まるほど、データをパッと見ただけでは、どんな状況か理解することが難しくなります。そこでそのデータをグラフ化したり代表的な数値(ご存じの方もいると思いますが、平均や中央値といったものなど)を出すことで全体のデータを特徴を使む必要が出てきます。これらのデータを出したうえで、このデータから何が言えそうかを考えるところまでがデータの理解というフェーズになります。
②データの一般化
次に、データの一般化というフェーズです。今回取得したデータであり、これがいつも続くというわけではありません。ドラゴンクエストでスライムに攻撃したときに、ダメージが毎回変わるのと一緒です。(実際は意図的に数値を変えているはずなのですが、)。つまりあるデータを説明するためにはある程度はいくつかの条件によって決まっているものがあるのですが、その結果の中にはその時だけのランダムな要素(ノイズといったりしますが)入っています。先ほどのドラゴンクエストのダメージでいうと、レベル、装備しているもの、属性などによって大まかなダメージは決まるものの、そこにランダムな増減が入るということになります。このランダムな部分をできるだけ取り除く作業、このランダム部分を許容してデータの特徴をつかむということがこの一般化のフェーズになります。
③データの活用
最後のフェーズはデータを活用するということです。一般化のフェーズのおかげデータの関係性などが見えてくると、期待しているゴールに向けて何をどれくらい変化させるとそのゴールに向けて近づけるかを予測することができるようになります。
私が統計的に考えるうえで注意していることは、データはばらつくという視点を持つことで、確率的な視点で物をとらえなければということです。
④ちょっと具体的に見てみよう
こんかいはデータの理解というところの1例を挙げてみたいと思います。。
10人の人が2種類のテストを受けた結果、どちらも平均点が60点だったとします。
テストAの各点数:(60, 40, 40, 70, 80, 60, 70, 50, 60, 70)
テストBの各点数:(20, 20, 20, 90, 90, 100, 30, 40, 90, 100)
上の平均点と各点数を見て何が分かるでしょうか、10個ずつのデータですのでテストAは平均点近くに点数が偏っていて、テストBは平均点付近の点数がないことが分かるかもしれません。
それぞれヒストグラムというグラフをであらわすとこのような形になります平均点のところにマークをしています。
平均点そのものの人数を見るとテストAは4人、テストBは1人だけです。±10点(50~70点)でみても、テストAは8人、テストBは1人のままです。
なんとなくテストAは平均点が10人の成績をうまく説明できていそうですが、テストBではよくわかりにくい結果になっています。
このようにヒストグラムや散布図などのグラフを書くことでデータの特徴をつかみやすくなります。
このほかにも中央値や4分位点を数値で見て理解する方法などいろいろありますが、グラフ化することが一番わかりやすいかなと思います。
おわりに
このような形で、統計ってむずかしそうと身構えることなく今あるデータをどのように理解するかというところから始めてみてはいかがでしょうか
できればこれから、いろいろ統計的にデータを見ていく方法というものご紹介していければと思います。
ここまで読んでいただきありがとうございます。 スキを押していただけると嬉しいです。 フォローしていただけるとさらにうれしいです。