200サンプルの信頼性

以前の日記で、統計学的に200サンプルあれば1万でも10万でも似たような結果に収束する、ということを書いた。証明プロセスは忘れてしまったが、今更、統計学の難しい計算を思い出すのは無理なので、ChatGPTに教えてもらった。せっかくだし、ここにメモしておくことにする。(ただ、使うことはないだろうし、誰かに説明できるレベルでもない。学者向けの話だ。)

結論を先に書くと、サンプル数が200の場合、95%の信頼水準での誤差範囲は約7%となる。


質問:統計学的に有効なサンプル数は幾つですか。

GPTの回答:統計学的に有効なサンプル数は、研究の目的やデータの性質、必要な精度(信頼区間や誤差範囲)、母集団の大きさなどによって異なります。一般的に、サンプルサイズを決定する際には以下の要因を考慮します:

  1. 信頼水準(Confidence Level):通常95%や99%が用いられます。これは、得られた推定値が「真の値」を含む確率を意味します。

  2. 許容誤差(Margin of Error):サンプルの結果が母集団の真の値とどれだけ離れているかの許容範囲です。たとえば±5%など。

  3. 母集団の標準偏差(Standard Deviation):母集団がどの程度ばらついているかを示します。事前に既知の場合もありますが、推定されることが多いです。

  4. 母集団のサイズ(Population Size):母集団全体のサイズも影響します。特に母集団が小さい場合、サンプルサイズの計算に反映されます。

サンプルサイズの計算

一般的なサンプルサイズ計算の公式(無限母集団または母集団が大きい場合):

[
n = \frac{Z^2 \times p \times (1 - p)}{E^2}
]

ここで:

  • ( n ) はサンプルサイズ

  • ( Z ) は信頼水準に対応するZ値(例えば95%信頼水準で1.96)

  • ( p ) は母集団の割合の推定値(通常0.5が用いられることが多い)

  • ( E ) は許容誤差

たとえば、95%の信頼水準で許容誤差が±5%、母集団の割合の推定値が0.5の場合、サンプルサイズを計算してみましょう。

95%の信頼水準で許容誤差が±5%、母集団の割合の推定値が50%の場合、統計的に有効なサンプルサイズは約 384 です。

このサンプルサイズが得られると、結果の信頼性が高まり、母集団の特性を適切に推定できると考えられます。ただし、状況に応じて調整が必要になる場合があります。

質問:サンプルが200しかなかったら?

GPTの回答:サンプルが200しかない場合、母集団の特性を推定する際の誤差が大きくなります。つまり、±5%の誤差を維持するためには、384のサンプルが必要とされるので、サンプル数が少ないほど誤差範囲は広がります。

サンプルサイズが200である場合、同じ信頼水準(95%)での誤差範囲を計算することができます。この場合、許容誤差(Margin of Error, E)を求めるための式を使います:

E = Z \times \sqrt{\frac{p \times (1 - p)}{n}}

ここで:

Z  は95%の信頼水準に対応するZ値(1.96)
•	 p  は母集団の割合の推定値(通常0.5)
•	 n  はサンプルサイズ(200)

この値を計算してみます。

サンプル数が200の場合、95%の信頼水準での誤差範囲は約±6.93%となります。これは、384サンプルのときの±5%よりも広い範囲です。つまり、サンプル数が少なくなるほど、母集団の特性を推定する際の精度は低下し、誤差範囲が大きくなることを示しています。サンプル数200では、結果に対して約±7%の誤差が生じることを念頭に置く必要があります。

以上!
この日記はただのメモ(^^)使う事ないけど!


この記事が気に入ったらサポートをしてみませんか?