#8 【統計】①記述統計前半

今週課題に追われていてなかなか更新できませんでした。やっとnote書く時間とれた。。課題終わってよかった。

前回書いた通り、今日は統計です。

わたしってスポーツ科学を学んでいる現役大学生なんですが、いろいろあって最近「統計」の勉強も始めました。完全初学者なので、参考書片手にゼロから独学していくことになります。一冊目に選んだ参考書は、大学の図書館にたまたま置いてあったこちらの本です。

とりあえずこれを6/15までにマスターするって決めました。だから内容はこの本に読んで、自分の理解と、追加で調べたことや考えたことをまとめていく感じの連載になります。あくまでわたしというフィルターを介した、わたしなりの理解だということにご注意。今日はその第一回目!

(ここから本題↓)

⑴統計とは

統計を使って何ができるのかというと、ものごとの全体的な傾向、性格を知ることが出来ます。

例えば、「愛知県の小学校4年生の50m走のタイムは何秒ぐらいなのか?」とか、「あるブランドで今年いちばん売れた洋服の種類は?」とかそういうことが分かります。すごく簡単な例ですが!

上みたいな例じゃちょっと現場で統計が使われている実感がわかなかったので、追加で調べたんですけど、例えば天気予報で台風の進路を予想しているのも、同じ気温、同じ気圧など、過去の似た天候条件の日に台風が通ったルートをデータとして割り出しているそうです。統計を使って「こういう条件の日には台風はこんな感じで動くな~」と全体的な傾向をつかんでいるんですね。

医療分野でも統計が使われています。新薬が開発されたときには臨床実験をしないといけませんが、一人や二人の試験者に薬をためしてもらっても、「その薬が本当に効く」のか「その人にだけはたまたま効いた」のかわかりませんよね。人には個人差があるからです。

そこで、もっとたくさんの人に試してもらって、「この薬が多くの人に(特異的にではなく一般的に)効果を示すのか」ということを調べないといけないことになります。そのとき統計が必要になるんですね!

これは想像つきやすいと思うんですけど、マーケティングとかではますます統計がものを言いそうですよね!どういう商品が人気なのか、それはどんな人に売れているのか、そういう「全体的な傾向」をつかめば、ニーズにあった商品づくりが出来ます。だからいろんな人のネット上の買い物履歴などのデータを企業は欲しがるわけですね。ここでは個人個人の欲求には注目していません。あくまでも全体としてどんな人が多いのかに着目しているのです。


研究論文でも、実験結果が「どれほど確からしいのか」を検定するために統計が使われています。これがないと、実験結果がどれほど素晴らしくても「信頼性がない」ってツッコまれちゃいます。


こんなふうに、ものごとの全体の流れや大まかな性格をキャプチャすることに、統計は優れているのです。そしてその能力が様々な分野で利用され、産業全体を支えているんですね。


⑵代表値

「この地区に住んでいる人の年収はだいたいどれくらいなの?」という問いに、どうやって答えればいいでしょう?

多分、この地区に住む全ての社会人に年収を教えてもらって、その平均(全部を足し合わせて母数で割る)をとれば答えられますよね。住民の年収を、みんな同じ分ずつに均したんです。これで一件落着・・・・

ではありません。


もし、住民のほとんどが年収400万円で(適当です)一人だけ100億円だったら、実質この地区の住民の年収はたった一人を除けばだいたい400万円なのに、平均だけが爆上がりしてしまいます。「平均値」だけを見るとまるでこの地区が金持ちだけが住む高級住宅街みたいに見えちゃいますよね。

だから、中央値(メディアン)と呼ばれる指標が登場します。中央値とは、データを大きさ順(場合による)に並べたときにちょうど真ん中にくる値です。9個のデータなら5番目の値、10個のデータなら5番目と6番目の平均です。これがあれば、さっきみたいな外れ値によって大きく揺さぶられてしまう平均だけでは見えないことが見えるようになります。

ということは、桁違いに大きく外れた値がないデータの場合は、平均値と中央値はわりと近い値になるってことだろうな。


では、最も多数派の、つまりいちばん「よくある」年収帯はいくらなんでしょうか?これを表すのが最頻値(モード)です。モード=modeには「流行」という意味があって、その名の通りいちばん多くの人に手に取ってもらえたアイテム=いちばん度数が大きい階級の階級値=最頻値、なんです。


これら平均値中央値最頻値などの、データを代表するような値のことを代表値と総称します。ちなみに各代表値はこのように表すそうです。

画像1


⑶ヒストグラム、度数分布表

ヒストグラムは柱状グラフのこと、度数分布表はヒストグラムを書くときのもとになるような、データを階級ごとに分けてまとめた表ですね。たとえば20点満点のテストで、5点以下の人は何人で、5~10点の人は何人なのか、要約して一目でわかるようにしてあります。

覚えなきゃいけない用語は階級、度数、相対度数、累積度数、階級値、ぐらいですかね。これもう高校のときに習って知ってるので改めてまとめることはしません。


実際に自分でデータを集めて、いざ度数分布表をつくろうとしたときに問題になるのが、「階級を何個に分けるか?」ということです。100点満点のテストを100人に受けさせたときの最低点が40点、最高点が100点だったとして、階級を2つにしか分けなかったときと、5点ずつに分けたときでは、ヒストグラムの形が全然変わってくるの、想像つきますか?

ここでいくつの階級にわけるのが妥当なのか、その目安を考えてくれた人がいます。スタージェスさんです!

画像2

n=階級の数、N=データの大きさです。

さっきの100点満点のテストを100人が受けた例で考えると、Nに100を代入して計算すると、n=7.65くらいの値になります。だからまあ階級は大体8個ぐらいかな、という目安になります。他にも鈴木健一郎先生による鈴木の公式というものもあって、それで計算してもデータサイズ100なら階級の個数は8ぐらいと算出されます。

でも、この参考書では次のようにも紹介されていました。

階級の個数は、これらの公式で機械的に計算すればよいというものではないでしょう。大切なのは”分布の特徴がよく分かるように”ということです。おおよその見当として、次のように考えてはいかがでしょうか:
N:50前後→5≦n≦7
N:100前後→8≦n≦12
N:100以上→10≦n≦30

今回のデータは最大値100、最小値40なので、レンジ(範囲)は60です。5点ずつで12階級にわけると、理解しやすく階級数も多すぎない、良い分布表になるのではないでしょうか。

次に問題にするのは階級の端です。階級の端とは、例えば0~5点の階級では、0と5のことです。これが実測値と重なっちゃうと、隣り合う階級のどっちに含めればいいのか悩んじゃうので、重ならないようにしたいわけです。いま、実測値は自然数なので、.5までつけると実測値とは絶対に重なりません。また、今回は100点がいるので、100を含むように階級の幅を設定すると、

~45.5、45.5~50.5、50.5~55.5・・・95.5~100.5

という感じで、12階級に分けることが出来ました!こんな感じで階級の個数と階級の幅は決まっているんですね。まとめると、

①スタージェスの公式、または鈴木の公式、あるいは上に書いた目安をもとに階級の個数を決める。

②レンジ(範囲)を階級の個数で割って、階級の幅を決める。

っていう流れです!今回は階級の個数12でレンジ60を割った値、5が階級幅になりました。


ちなみに今日やった「中央値」ですが、たとえば2、5、8、9、9のように実際の値が与えられていれば中央値は8とすぐに答えられますけど、度数分布表だけしか与えられていないときは中央の正確な値はわからない、というのが想像できますでしょうか?

画像3

てきとーに考えた上の例(21人に聞いた満年齢)でいくと、度数の合計が21個なので中央値は小さい順に並べたときの11番目の値ですよね。11番目の値が含まれているのは10.5~15.5の階級ということになりますが、それ以上はわかりません。11番目の人の年齢は12歳かもしれないし、14歳かもしれないのです。

そこで、このように度数分布表だけが与えられたときには次のように考えるのです。

画像4

まず、同じ階級の中の値は等間隔に並んでいると仮定するのです。例えば、10.5~15.5の階級に属する9~13番目の5つの値は、

階級の幅15.5-10.5=5を5等分している、つまり1感覚で並んでいると仮定するのです。さらに、階級の下端、上端をそれぞれ全体の8.5番目、13.5番目の値とみなすと、

11-8.5=2.5

で、中央値である11番目の値はすなわち階級下端から2.5番目の値だということになります。この階級中では、値どうしは1刻みで等間隔に並んでいたので、

2.5×1=2.5

より、中央値は階級下端より2.5だけ大きい数字ということになります。すなわち、10.5+2.5=13。

この度数分布表から得られる中央値は、13歳ということになります。



今日はこのへんにしておいて、次回は分散とかに入ろうかなと思います。本当にやりたいのは推測統計なので、このへんの高校で習ったような記述統計はさらっと行きたいです。もうすぐこの本は読み終わるので、終わったらエクセルの統計解析の本も借りてきてるんでそっち実践して紹介していきたいです!では次回!



院試合格後の生活費になります!