DS82:標本誤差・標準誤差【データサイエンティスト検定(リテラシーレベル)補習ノート】

データサイエンティスト検定(リテラシーレベル)の公式リファレンスブックで躓いたところをまとめていきます。

標本誤差

標本誤差とは、標本によって得られる推計値と母集団から得られる値との差のことです。標本からの推計がどれぐらい正しいかを表す指標ですが、そもそも全数検査しなければ母集団が未知なので、標本誤差は算出できません。そのかわりに標準誤差を使います。

標準誤差(Standard Error)

標準誤差は次の式で求められます。テキストでは左辺をσxと記載していますが、標準誤差はSEと略記されることが多いのでここではSEと記載しています。

分母のnは標本のサンプルサイズ、分子のsは不偏分散による標準偏差です。テキストではσ(母平均の標準偏差)と書かれていますが、母平均の標準偏差は一般に未知なので、不偏分散による標準偏差で代用することが多いと思います。

画像1

テキストでは、このSEをどう使うのかが書かれていませんので補足すると、標本平均から母平均がどのぐらいの精度で求められそうかを検討するために使用します。具体的には以下のように計算されます。

 母平均の95%信頼区間 = 標本平均 ± 1.96×SE

たとえば標本平均が100でSEが10の場合、無作為抽出を100回繰り返すと、うち95回は母平均が100±19.6に収まると推定されます。

このあたりの説明は、こちらの記事が丁寧で素晴らしかったので参照してください。

アンケートのサンプル数の決定に使える

標準誤差はアンケートのサンプル数の決定に使えます。先の式を見ると、分母にサンプルサイズnがあるので、サンプル数を増やせば標準誤差が減って信頼区間を狭める(精度を高める)ことが可能です。

かといって無限にサンプル数を増やすのは経済合理性に欠けるので、必要な精度と資金的・人的リソースや時間との兼ね合いから決定することになります。

標準誤差を求められるホームページ

上記のような意思決定に役立つ、アンケートのサンプル数を簡単に計算できるサイトがありますので紹介しておきます。

参考資料


この記事が気に入ったらサポートをしてみませんか?