産業保健職のための疫学・統計学‐データの分析手法:t検定はやめておこう!‐分布

産業保健に関わっていると、二つの集団に差があるか?という疑問によく遭遇します。集団の平均に差があるかを調べるときに、t検定という手法を聞いたことがあるかもしれませんが、t検定は現実世界のデータを扱う産業保健職にとってはあまり必要のない手法(といいますか、使いにくい手法)です。

とは言え、t検定の仕組みを理解する過程で、統計の勉強がすごくできるので、まずはt検定がなにをしているのか、そしてそれが使えないということを理解していただく内容の記事を書いていこうと思います。

結構気合を入れた記事(シリーズ)になるので、ちょっと長くなりますが、ぜひお付き合いください。

まず、この記事では分布とよばれるものの概念を解説していきます。

分布のイメージ

さて、砂浜にあなたがいるとしてここを掘ってみます。何がでるでしょうか?

貝殻がでました!これは当たり前ですね?

もっと掘ってみましょう。

ちょっと珍しいものがでてきました。こうやって砂浜に埋まっているものを掘り返していくと、

こんな感じで、貝殻がたくさん。そしてたまにビンが見つかりました。さらに掘っていきましょう。すると・・・

ダイアモンドの指輪をみつけました!誰かが落としたのでしょうか?かなり珍しいです。

統計学を学ぶときに出てくる分布という概念、この砂浜に例えると少しわかりやすくなるかもしれません。

掘り出したもの、貝殻やビン、指輪を数字だとすると、砂浜から発見できるものとして珍しいもの(数字)や、出てきて当たり前のもの(数字)が様々みつかるはずです。このとき、数字が出てくる大元のことを分布と呼びましょう。

何かしらの分布があるとすると、そこから数字がでてきます。その数字はたくさんでてくるものから、めったに出てこないものまで様々です。この分布から数字がでてくるというイメージ、すごく大切なので、覚えておいてください。

サイコロの平均の分布を考えてみる

さて、ここからは実際に分布を作るということを試みてみましょう。ここにサイコロが4個あったとして、そのサイコロ4つの平均値を記録する作業を考えます。下の例だと、1回の試行(サイコロを振って記録する)で、5,2,1,4という数字がでているので、その平均は3.00です。1,3,2,1がでたら1.75が平均になるという感じです。

ここで、この平均値をたくさん記録していってヒストグラム(注1)を描いたらどうなるでしょう?皆さんに実感していただきたくて10万回程、4個のサイコロを振った平均値を記録(注2)してヒストグラムを描いてみました。
まずは、10回、100回、1000回、1万回のヒストグラムです。

4個のサイコロの平均値なので、実はサイコロそのものの平均値$${\frac{1+2+3+4+5+6}{6}=3.5}$$に近い値がたくさんでるはずで、実際に1万回程サイコロの平均値をとった結果、ヒストグラムは3.5で一番高い山を描いています。10万回の試行した結果は、

こんな形になっています。このヒストグラム、左右に対象で釣鐘型と呼ばれる形をしていますが、この形は正規分布と呼ばれる分布であることが知られています。逆に考えると、サイコロを4個振った平均値は、平均が3.5で分散(分布の幅)が0.73の正規分布に従うということが計算上もとめることができて、実際にそのような分布(下の図の左のグラフ)と10万回を振った結果(下の図の右のヒストグラム)非常に似た形をしています。

正規分布の形

正規分布と呼ばれる分布ですが、この左右対称な分布は次の図のように平均値やでてくる数字のばらつき具合によっていろいろな形をとります。

このとき、平均0で分散が1の正規分布のことを標準正規分布とよんだりします。この標準正規分布、色々なところでZという名前ででてくるのでここで頭の片隅に置いておいてください。

以上、分布の話でした。次の記事では正規分布から出現するt分布の話を行っていきます。



注1 ヒストグラム:
 積み上げ棒グラフ。値がたくさん出るほど、その値の棒が高くなる
注2 10万回程、4個のサイコロを振った平均値を記録
 実際にサイコロを振ったわけではなく、R言語というプログラミング言語でシミュレーションしました。コードは次のような感じです。

set.seed(12345)
a_try <- function(){mean(sampl(1:6,4,TRUE))}
t100000 <- map_dbl(1:10000, ~a_try())


この記事が気に入ったらサポートをしてみませんか?