見出し画像

統計学がわかる 第1章

今日は『統計学がわかる』という本の第1章「ポテトの長さは揃ってる?―平均と分散―」を参考に、統計ソフトRでデータの平均、度数分布、分散、標準偏差を求めていきます。
Rコードを書く時の参考にしてください。

この章では、『ワクワクバーガー』と『モグモグバーガー』というファストフード店で売られているポテトの長さに違いがあるのかという話をしています。

1. 平均値を計算する

まず、p.15にある、ワクワクバーガーのポテトの長さをExcelのcsvファイルに入れました。

dat1<-read.csv("ワクワクバーガー長さ.csv")

こうなっています。(見切れていますが、番号は49まであります。)

これら49本のポテトの長さの平均は、mean関数で出せます。

mean(dat1$長さ)

長さの平均は4.57cmでした。
モグモグバーガーのポテトの長さについても同様にcsvファイルに入れ、Rに読み込ませ、平均値を出しました。

dat2<-read.csv("モグモグバーガー長さ.csv")
mean(dat2$長さ)

同じことをやっているだけなので画像は省略しますが、長さの平均は4.61cmでした。
よって、両店舗のポテトの長さの平均は約0.04cmしか違わないのですが、教科書に出てくる主人公は、見た目がなんだか違うように見えるんだけどなあ…と思います。


2. 度数分布を調べる

そこで、データの散らばり具合を可視化するべく、度数分布表/ヒストグラムを作ります。
Rでヒストグラムを作る時はhist関数を使います。今回は両店舗で比較したいので、x軸及びy軸が同じになるように入力する必要があります。そのためにbreaks=seq()でx軸を0から8まで1cm刻みにし、ylim=c()でy軸を0から20にします。あとは、わかりやすいようにmainで図にタイトルを入れます。

hist(dat1$長さ,breaks=seq(0,8,1),ylim=c(0,20),main="ワクワクバーガー")
hist(dat2$長さ,breaks=seq(0,8,1),ylim=c(0,20),main="モグモグバーガー")

これを見ると、ワクワクバーガーのポテトは4,5cmに揃っているのに対して、モグモグバーガーのポテトは長さのばらつきが大きいことがわかります。


3. ばらつきを数字にする―分散と標準偏差―

教科書では、平均値を中心としてデータがどれくらいばらついているのかを示す分散と標準偏差を計算しています。手計算すると面倒なのですが、Rはvar関数とsd関数で瞬殺できます。

var(dat1$長さ)
sd(dat1$長さ)
var(dat2$長さ)
sd(dat2$長さ)

「var」が分散で、「sd」が標準偏差です。
明らかにワクワクバーガーのポテトは長さが揃っているし(分散が小さい)、それに比べてモグモグバーガーのポテトは長さがバラバラ(分散が大きい)ことがわかりました。



第1章はここまでです。教科書ではExcelを使ったり手計算させたりしていますが、敢えてRを使いました。やってみたかっただけです。今回はこれで終わり。

この記事が気に入ったらサポートをしてみませんか?