第150回: 「統計の実務」11 仮説検定《その1:t検定のしかた》
◀前の記事へ 次の記事へ▶
≡ はじめに
前回は、「散布図」、「条件付き散布図」、「平均のプロット」、「ドットチャート」、「棒グラフ」、「円グラフ」、「3次元グラフ」の7つのグラフをまとめて紹介しました。
今回は、ようやく「グラフ」の紹介を終えて、「仮説検定」の話題に移ります。
数日前にツイートしましたが、こちらのサイトによると、英語では、
figure: フィギュア(あらゆる図・絵)
chart: チャート(数値を図表化したもの)
graph: グラフ(X軸とY軸がある)
diagram: ダイアグラム(略図)
という使い分けだそうです。集合の記号で書けば、「figure ⊃ chart ⊃ graph」です。言われてみたら、円グラフは“pie chart”ですね。
「仮説検定」は、いくつか書いておきたいことがありますので、何回かに分けて書きます。今回は、どういうものかを知ってもらう回です。1番よく使うパターンだと思います。
≡ 例題
こんな例題を考えてみます。
まず、体重のデータは、
です。データにダイエット前後の差と平均値を加えたものは下表の通りです。20人のデータが集まったということです。
平均で、1kg減っているものの、1.8kg増えている人もいます。「誤差なんじゃない?」と言われたら「そうかもしれない」とも思います。
≡ t検定
そんなときには、「t検定」を使いましょう。やり方は超簡単です。上の「体重.csv」ファイルをRコマンダーに読み込んで、
[統計量]>[平均]>[対応のあるt検定]
を選択し、比較したいものを選ぶだけです。
オプションシートが出てきたら比較対象の変数(列名)を選択します。そうすると、以下の出力が得られます。
data: ダイエット前 and ダイエット後
t = 3.2043, df = 19, p-value = 0.004669
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.3589491 1.7110509
sample estimates:
mean of the differences
1.035
たくさんでていますが、とりあえず、「p-value」のところを見て、この値が「0.05未満」であれば、「t検定の結果、平均には有意差がある」といえます。
今回は、0.00466と、0.05未満です。これで安心して、『お豆腐ダイエット』の特集を組めるというものです。
≡ 応用
t検定は、何かの効果確認に一番使用されています。
例えば、「残業時間が多いから対策として、『定時になったら1分間消灯する』という対策をいれた」としたら、対策の前後の残業時間を測って同じようにt検定したらOKです。
改善の効果確認で検定を使うと論文などの信頼性が上がります。
医療分野では「薬の効果」や「手法の効果」を示すために使われています。もっともサンプル数(被験者数)はもっとたくさん必要です。
t検定を手作業で行うのは計算が面倒ですし、統計の本でも後ろのほうに出てくるので、使っていない人も多いのではないかと思います。
「こんなに簡単ならこれから使ってやろう」と思ってくださったら、このnoteを書いた甲斐があったというものです。
≡ 注意
t検定の使用時の注意を1つだけ書きます。それは、「データ数が5つ(比較するので最低10個)以上の計量値に対して使う」ということです。本当は、この「体重.csv」のように、20個以上あると良いのですが、そうもいっていられないと思います。
なお、計量値とは、時間とか、体重とか、そういったアナログ値のことです。計数値(デジタル値)の場合は、その平均値(サンプリング数ではありません)が10以上なら使っても構いませんが、一桁の場合は使えないと考えてください。たとえば、「本番稼働後に、週に発生した不具合数(週に二桁はでませんよね?)」のようなものには使えません。
≡ おわりに
今回は、仮説検定の1回目として「t検定の仕方」について説明しました。とりあえず、使ってみることが大切と思います。次回は仮説検定の続きです。次回は、グラフを描きながら、もう少し解説も詳しく書きたいと思います。
◀前の記事へ 次の記事へ▶
この記事が気に入ったらサポートをしてみませんか?