見出し画像

第150回: 「統計の実務」11 仮説検定《その1:t検定のしかた》

◀前の記事へ   次の記事へ▶

≡ はじめに

前回は、「散布図」、「条件付き散布図」、「平均のプロット」、「ドットチャート」、「棒グラフ」、「円グラフ」、「3次元グラフ」の7つのグラフをまとめて紹介しました。

今回は、ようやく「グラフ」の紹介を終えて、「仮説検定」の話題に移ります。

正直な話、私は統計解析で得られた数値よりもグラフのほうが何倍も役に立ってきましたし、グラフがついている統計解析結果は信用します。

数日前にツイートしましたが、こちらのサイトによると、英語では、

  • figure: フィギュア(あらゆる図・絵)

  • chart: チャート(数値を図表化したもの)

  • graph: グラフ(X軸とY軸がある)

  • diagram: ダイアグラム(略図)

という使い分けだそうです。集合の記号で書けば、「figure ⊃ chart ⊃ graph」です。言われてみたら、円グラフは“pie chart”ですね。

「仮説検定」は、いくつか書いておきたいことがありますので、何回かに分けて書きます。今回は、どういうものかを知ってもらう回です。1番よく使うパターンだと思います。


≡ 例題

こんな例題を考えてみます。

とある情報番組のADのAさんは、毎朝、お豆腐を1丁食べるとやせる、『お豆腐ダイエット』を思い付きました。その効果を確認すべく、多くの知り合いに頼んで1週間、朝食にお豆腐1丁をプラスすることを続けてもらいました。そして、ダイエットの前後の体重を集めました。体重の平均値が下がっていたので、AさんはディレクターのDさんへ「番組で『お豆腐ダイエット』を特集したい」と言ったのですが、Dさんから「体重が増えた人もいるし、誤差の範囲じゃない?」って言われました。
Aさんはがっかりしました。

さて、t検定を使ってAさんの無念を晴らすにはどうしたらよいでしょう?

まず、体重のデータは、

です。データにダイエット前後の差と平均値を加えたものは下表の通りです。20人のデータが集まったということです。

ダイエット前後の体重比較表

平均で、1kg減っているものの、1.8kg増えている人もいます。「誤差なんじゃない?」と言われたら「そうかもしれない」とも思います。


≡ t検定

そんなときには、「t検定」を使いましょう。やり方は超簡単です。上の「体重.csv」ファイルをRコマンダーに読み込んで、
  [統計量]>[平均]>[対応のあるt検定]
を選択し、比較したいものを選ぶだけです。

Rコマンダーのメニュー選択


比較対象の変数の選択


オプションシートが出てきたら比較対象の変数(列名)を選択します。そうすると、以下の出力が得られます。

data:  ダイエット前 and ダイエット後
t = 3.2043, df = 19, p-value = 0.004669
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.3589491 1.7110509
sample estimates:
mean of the differences
1.035

たくさんでていますが、とりあえず、「p-value」のところを見て、この値が「0.05未満」であれば、「t検定の結果、平均には有意差がある」といえます。
今回は、0.00466と、0.05未満です。これで安心して、『お豆腐ダイエット』の特集を組めるというものです。

もうちょっと頑張りたい人は、「95 percent confidence interval: 0.3589491 1.7110509」のところから「95%信頼区間が0.3から1.7ということは、『お豆腐ダイエット』で、0.3kgから1.7kgのダイエットに成功する人の割合は95%と期待できる」んだなと読み取ってください。


≡ 応用

t検定は、何かの効果確認に一番使用されています。
例えば、「残業時間が多いから対策として、『定時になったら1分間消灯する』という対策をいれた」としたら、対策の前後の残業時間を測って同じようにt検定したらOKです。

改善の効果確認で検定を使うと論文などの信頼性が上がります。

医療分野では「薬の効果」や「手法の効果」を示すために使われています。もっともサンプル数(被験者数)はもっとたくさん必要です。

t検定を手作業で行うのは計算が面倒ですし、統計の本でも後ろのほうに出てくるので、使っていない人も多いのではないかと思います。
「こんなに簡単ならこれから使ってやろう」と思ってくださったら、このnoteを書いた甲斐があったというものです。


≡ 注意

t検定の使用時の注意を1つだけ書きます。それは、「データ数が5つ(比較するので最低10個)以上の計量値に対して使う」ということです。本当は、この「体重.csv」のように、20個以上あると良いのですが、そうもいっていられないと思います。

なお、計量値とは、時間とか、体重とか、そういったアナログ値のことです。計数値(デジタル値)の場合は、その平均値(サンプリング数ではありません)が10以上なら使っても構いませんが、一桁の場合は使えないと考えてください。たとえば、「本番稼働後に、週に発生した不具合数(週に二桁はでませんよね?)」のようなものには使えません。


≡ おわりに


今回は、仮説検定の1回目として「t検定の仕方」について説明しました。とりあえず、使ってみることが大切と思います。次回は仮説検定の続きです。次回は、グラフを描きながら、もう少し解説も詳しく書きたいと思います。

そうそう、今回のダイエット例ですが、良いのが無くて困りました。「食品名+ダイエット」で検索すると、全て見つかるのです! 仕方がないので、「朝タン(朝にタンパク質を取ろう)」の豆腐にしました。

※ 例えば、太りそうな「豚骨ラーメンダイエット」すらあるのですよ。😅

ちなみに私は「特定保健用食品」のお茶を1年以上毎日500mlペットボトルを1本飲み続けましたが、体質に合わなかったのか、ただの美味しいお茶でした。

◀前の記事へ   次の記事へ▶

この記事が気に入ったらサポートをしてみませんか?