見出し画像

区間推定、1000人のアンケートで十分なデータが取れるのか??


 投票率はどれぐらいの票が集まれば信頼できるものなのかを考えていきます。

 例えば、アンケート調査を例に考えます。

 Aの項目について、10人に聞いたところ、は40%の得票率になりました。また別の10人に聞くのを繰り返すと、48%, 37%, 45%, 36%, ...

 と10人なら得票率はかなりバラバラです。

 では、100人に聞いたところ、41%, 38%,40%, ...

 バラツキが少なくなりましたね。

 このように、票数が多ければ多いほど、得票率は安定してきます。いったい、何人から票を貰えばデータを確信できるでしょうか?ということを考えます。


 使っていくのは、信頼度95%母比率の区間推定です。(標本数が多いと仮定)

$${p' - 1.96  \sqrt{\dfrac{p'(1 - p')}{n}}< p < p' + 1.96 \sqrt{\dfrac{p'(1 - p')}{n}}}$$
また、以下のように考えることもできる。

$${|p - p'| < 1.96 \sqrt{\dfrac{p'(1 - p')}{n}}}$$

p' = 標本比率
p = 母比率
n = 標本数

 とりあえず、この不等式の幅が狭ければ得票率が安定してきます。この式を使って、得票数はいくらあれば安定するのかを考えます。

 補足ですが、標本比率が、ここでいうアンケート調査です。母比率が、アンケートで得たい真の比率です。標本数が得票数と同じ意味です。


 やりたいことは、散らばり具合(標準偏差)を小さくしたいので、

$${\sqrt{\dfrac{p'(1 - p')}{n}}}$$

 ここだけを考えます。$${p'(1 - p')}$$の部分は、最大でも、0.25です(微分・平方完成などで求まる。)これに平方根を取ると0.5です。

 つまり、標準偏差は最大でも

$${\dfrac{0.5}{\sqrt{n}}}$$

となります。

 つまり、n を考えないと(n = 1の場合)最大でも
50%ぶれます。かなり厳しいですね。

$${\dfrac{0.5}{\sqrt{n}}}$$ = 割合の誤差

 ここでは、誤差が最大でも1%(0.01)になる n を見つけましょう!つまり、こんだけの数が集まれば、せいぜい1%の誤差しか生まれないアンケート調査が出来るということです。以下の式を考えます。

$${\dfrac{0.5}{\sqrt{n}}}$$ = 0.01


 50%を1%までに減らすには50分の1 ですね。つまり、$${\sqrt{n} = 50}$$ です。

 ということは、n = 2500 あれば、最大誤差1%のアンケートが取れることになります!

 と、思いきや1つ考え忘れたことがあります。信頼度が考慮してないですね。今求めたnは標準偏差1つ分の話なので、信頼度68.26%となります。


 ここからの計算は、1.96のような標準偏差何個分離れてるかの話を考えていきます。文字で表すと$${k}$$としましょう。たとえばこんなかんじ

$${|p - p'| < k \sqrt{\dfrac{p'(1 - p')}{n}}}$$

 計算のやり方は結構簡単で、先程の2500 に$${k ^ 2}$$を掛け算すれば良いです($${k\dfrac{0.5}{\sqrt{n}}}$$ = 0.01 を n について解く)。

  • 信頼度95%(k = 1.96):n = 9,604

  • 信頼度99%(k = 2.58):n = 16,641

すると、このようになります。10,000人ほどアンケートを取れば、誤差がおおよそ1%に収まるということですね。いいことを知りました。10000の数を超えていればおおよそ信頼出来るデータになるでしょう(無作為に選ぶかぎり)


 ちなみに、標準偏差が最大になるときを考えましたが、標準偏差の期待値(?)ではどうなるでしょうか。

 関数の期待値は$${\int x f(x) dx}$$で求まるので、先程の標準偏差につかってみます。これです。

 $${\sqrt{\dfrac{p'(1 - p')}{n}}}$$

 期待値を求めてみます。p'は0から1の変数で、nは定数とすると

$${\int_{0}^{1} p' \sqrt{\dfrac{p'(1 - p')}{n}} dp'\\=\dfrac{1}{n}\int_{0}^{1} p' \sqrt{p'(1 - p')} dp'}$$

 積分の中は、なんか計算出来なさそうだったので、計算ツールを使ったら、π/16 と出ました。アークサインとか出てきたので、すごいですね。

 3.14 ÷ 16 = 0.1975 と出たので、積分で得られる期待値を0.2とします。つまり、これを解くと

$${k\dfrac{0.2}{\sqrt{n}}}$$ = 0.01
$${n = 400 k ^ 2 }$$

となります。信頼度を考えると

  • 信頼度95%(k = 1.96):n = 1,536.64

  • 信頼度99%(k = 2.58):n = 2,662.56

このようになります。平均的には、このようになるそうですね。2000人程に声をかければよろしいのではないでしょうか。

 これは1%の誤差の話なので、2%が許容範囲なら‪人数 n が(1/2)^2 = 1/4 に減らしてもよいです。先程の話なら、500人ほどでも十分です。

 3%が許容範囲なら‪人数 n が(1/3)^2 = 1/9 に減らしてもよいです。先程の話なら、222人程でも大丈夫です。

 1.5%が許容範囲なら‪人数 n が(1/1.5)^2 = 1/2.25 に減らしてもよいです。先程の話なら、888人でも十分です。

 このかんじを見る限り、1000人も回答を貰えば良さそうですね(無作為なら)。


 大学の課題で、内閣支持率について区間推定をしたことがあるのですが、どの報道機関もおおよそ1000人ほどに調査をしていました。

 1000人では少ないのではと思いきや、統計的には十分妥当な数だと今回分かりました。私もびっくりです。

 皆さんも、アンケート調査は1000人で十分確信のあるデータが取れると頭の中に入れておきましょう。

この記事が気に入ったらサポートをしてみませんか?