見出し画像

1つの母平均に関する検定・推定(基礎)【超詳細解説】

平均値の分布

あるお菓子工場でチョコレートを作っているとしましょう。
チョコレートの生産ラインでは1日数回、抜き取り検査でチョコレートの重量を検査しています。
当然、すべてのチョコレートを全く同じ重さで作ることはできませんから、測定結果は必ずバラつきがあります。
例として以下のような結果だったとしましょう。

サンプルをたくさん取って平均値と分散を計算したら、$${\mu=10.2 , \sigma^2=1.5^2}$$になりました。チョコレートの重さが正規分布に従っているとすると、
$${N(\mu,\sigma^2)=N(10.2,1.5^2)}$$
と表すことができますね。
グラフにするとこんな感じです。

ここまででは過去の記事でも解説してますので、こちらも参考に。

さて、今度は同じ生産ラインからチョコレートを一つずつではなく、3つずつ取って平均を計算する場合を考えましょう。
下記のようなイメージです。

1つ目の平均と分散を$${\bar{\mu_1}}$$、$${{\sigma^2}_1}$$
2つ目の平均と分散を$${\bar{\mu_2}}$$、$${{\sigma^2}_2}$$
3つ目の平均と分散を$${\bar{\mu_3}}$$、$${{\sigma^2}_3}$$、とします。
この生産ラインのチョコレートは平均重量$${1.2g}$$、分散$${{1.5g}^2}$$であることが分かっていますから、当然

$$
{\bar{\mu_1}=\bar{\mu_2}=\bar{\mu_3}=10.2}
$$

$$
{{{\sigma^2}_1}={{\sigma^2}_2}={{\sigma^2}_3}=1.5^2}
$$

です。
このとき、測定ごとの平均値の平均$${\mu_{AVE}}$$と平均値の分散$${{\sigma^2}_{AVE}}$$はいくつになるでしょうか?
一つずつ取ったときの平均と分散を、$${\mu}$$、$${{\sigma^2}}$$とすると、

$$
\mu_{AVE}=\mu=10.2
$$

$$
{\sigma^2}_{AVE}=\cfrac{{\sigma^2}}{n}=\cfrac{1.5^2}{3}=0.75=(0.87)^2
$$

になります。
$${N(10.2,1.5^2)}$$から3つ取った平均値の分布は$${N(10.2,0.87^2)}$$になるということです。

平均値はイメージできますね。チョコレートの重さの平均は10.2と分かっているので、3つ取った平均値の平均も10.2になりそうです。
一方、分散は一つずつ取ったときの分散$${{\sigma^2}}$$を$${n}$$で割っています。平均値を求めるために取ったサンプルの数だけ分散が小さくなるということです。
これはイメージしましょう。ある集団からいくつかサンプルを取って、平均値を計算します。サンプルの数が大きくなればなるほど平均値のばらつきは小さくなりそうですよね?
極論、集団のすべてをサンプルとして取り出したら、計算される平均値は毎回同じ値になるはずです。毎回同じ値ということはばらつきがゼロ。すなわち分散がゼロです。式を見ても$${n}$$が$${\infty}$$になれば分散がゼロになりますね。

平均値の検定にはこの考え方が必要になるので理解しておきましょう。
一つ例題を解いてみます。

例題
ある自動車部品の自動生産ラインで部品の振れを全数検査しています。今までの振れ値はこれまでの生産実績から平均$${5.6}$$μm、分散$${1.5^2}$$μmであることが分かっています。
今回、鈴木くんは振れ値の改善を行うために部品の加工条件を見直したのち、$${n=10}$$のデータを取って平均値を算出したところ、平均値は4.8μmでした。改善の効果はあったと言えるでしょうか?
ただし、改善の前後でばらつきは変化しないものとします。

考え方です。
$${N(5.6,1.5^2)}$$の母集団から10個を取り出して平均値を求めたとき、平均値が4.8μm以下になる確率はどれくらいかを考えます。

もし確率が高ければ、それはすなわち10個のデータを何回か取れば平均値が4.8μmというのは普通に起こり得るということなので、改善の効果があったとは言えない、と考えます。

もし確率が低ければ、滅多に起こらないことが起こったことになります。
しかし、これを「たまたま起こったんだね〜」で終わらせては意味がありません。検定では
「滅多に起こらないことが起こった」
と考えるのではなく、
「そもそも確率が低いということは、$${N(5.6,1.5^2)}$$の母集団から10個を取り出して平均値を求めたとき、平均値が4.8μm以下になることはほとんどない。ということは、改善の効果があったんだろう。」
と考えます。

ここがなんだか遠回しでまどろっこしいですが、統計的仮説検定ではこういう考え方をします。最初は慣れませんが、何回か問題を解けば段々と考え方がわかってくると思います。今は、理解だけできていれば大丈夫です。

また、確率が高い低いというのは抽象的なので、今回は5%を基準としておきましょう。
平均値が4.8以下になる確率が5%以下なら「低い」つまり「改善の効果があった」と判断するってことです。

では計算に入ります。

まず、$${N(5.6,1.5^2)}$$の母集団から$${n=10}$$のサンプルを取った平均値の分布を考えます。平均値の分布は

$$
N(\mu,\cfrac{{\sigma}^2}{n})
$$

になるんでしたね。
今回は、$${\mu=5.6}$$、$${{\sigma}^2=1.5^2}$$、$${n=10}$$なので、

$$
N(5.6,\cfrac{1.5^2}{10})
$$

です。
この分布から平均値4.8以下がどれぐらいの確率で出てくるのかを計算すればいいんですね。
図にするとこうです。

灰色の部分が全体の何%になるのかを求めるってことです。
その為には標準化するんでしたね。
標準化してこの正規分布を$${N(0,1^2)}$$に書き換えれば、標準正規分布表を使って灰色の部分の確率を求めることができます。

求めたい点を$${u}$$としましょう。$${u}$$は

$$
u=\cfrac{4.8-5.6}{\sqrt{{\cfrac{1.5^2}{10}}}}
$$


で求めることができます。計算すると

$$
u=-1.69
$$

となりました。
正規分布表を見てみましょう。

今、$${u}$$はマイナスの値です。正規分布表には右側(プラス側)の確率$${P}$$の値しか書かれていませんが、正規分布は左右対称なのでマイナス側でも正規分布表の値をそのまま使ってOKです。
$${Kp=1.69}$$を見ると、$${P=0.0455}$$であることが分かりました。
平均値が4.8以下になる確率は$${0.0455}$$つまり、$${4.55\%}$$です。
5%以下だったら、改善の効果があったと判断するんでしたね。

よって、鈴木くんの改善は「効果があったと言える」となります。

以上、母平均に関する検定の解説でした。(推定はまた別の記事で・・・)
本当は帰無仮説・対立仮説・有意水準などの言葉を使って解いていくのですが、あえてこれらの言葉を使わずに書きました。

初めて統計的仮説検定を学ぶ方にとって、助けになれば嬉しいです!

スキ・フォローもお願いします!

この記事が気に入ったらサポートをしてみませんか?