見出し画像

調査サンプルサイズについてのメモ

アンケート調査など、母集団全体に質問を聞けない場合、サンプル(標本)をとって推定することになるが、どの程度のサンプルサイズが妥当かという話です。

母集団が1万以上で、標本誤差が5%、信頼区間が95%、回答比率が50%という汎用的な条件において、必要なサンプルサイズは400。

1. 標本誤差

標本値と母集団値との差。

標本誤差
標本調査(母集団から一部の標本を抽出して行う調査)を行って母集団値を推定する際に生じる、標本値と母集団値との差を標本誤差という

https://www.intage.co.jp/glossary/041/


「ワインが好きな日本人の比率は60%」という結果が得られた場合、許容誤差が5%なら、母集団はワインが好きな日本人の比率は55%~65%

https://www.otoiawase-portal.jp/company/enquetechousa/contents/samplesize.html

2.信頼区間

母集団の平均(母平均)を推測する際の区間推定。区間推定を使えば、母集団すべてを測定しなくとも、平均を確からしく推定することが出来る。

95%信頼区間
100回のランダムな標本調査で、100回異なる信頼区間を求めると95%は真の値を含む区間。

https://www.youtube.com/watch?v=UIarOPzVi1Q

標本誤差5%信頼水準95%の場合
回収したサンプルが、どのくらいの確率で標本誤差の範囲内になるかを表す。信頼水準が95%の場合、「100人中95人は標本誤差内(±5%)の結果」であることを示す。

https://www.otoiawase-portal.jp/company/enquetechousa/contents/samplesize.html

3.回答比率

母集団の中である同じ属性を持った人たちの比率。はいといいえが半々の答えとなる場合は50%。調査の結果、サービスの認知率が30%の場合は30%

回答比率
支持率や保有率などの調査対象者の回答比率です。事前に他調査で同様な調査結果がある場合はその比率を用いるが、事前に参考となる結果がない場合は必要な調査対象者数が最大となる0.5を用いる。

https://www.stat.go.jp/naruhodo/15_episode/toukeigaku/taishosha.html

回答比率
母集団の中である同じ属性を持った人たちの比率

https://www.pref.oita.jp/uploaded/attachment/100535.pdf

4.サンプルサイズ

標本誤差と信頼区間と回答比率によって決まる。
信頼区間は一般的に95%、回答比率は誤差の大きい50%で計算し、標本誤差を5%をおくと概ね決まる。

一般的に信頼区間は95%で設定し(100回調査したい場合、95回は真の値が含まれる)、許容誤差も5%以内にしてデータを分析することを推奨。最も誤差が生じる比率50%で5%以内になるのは標本数400サンプルとなるため、回収数のひとつの目安としては400サンプル。

https://gallery.intage.co.jp/globalresearch-point1/
(縦軸:回答比率、横軸:サンプルサイズ、表数値:標本誤差)
https://korekara-marketing.com/statistics-sampling-error/

前提として母集団が異なると必要なサンプル数が異なる。

10,000人を超えると必要なサンプルサイズはあまり変化せず、400以下で収束する。そのため母集団が1,000人以上の場合は、400人程度のサンプルサイズを見込めば誤差±5%の範囲内でデータを得る事ができる。

https://lactivator.net/2019/04/04/sample_size/