見出し画像

標本調査

標本調査の必要性と意味

データの分析をするといろいろなことがわかる。例えば、ある集団の傾向を読み取ることができる。

データの分析をするためには、データを集める必要がある。しかし、集団があまりにも大規模な場合、すべてのデータを集めるのは大変である。

すべてのデータを集めずとも、ある程度のデータから大まかな傾向が読み取れたら嬉しい。

調査対象のうちの一部だけ取り出して調べることで、全体の傾向を推定することを試みる。このとき取り出した調査対象の集合を標本といい、全体の傾向を推定するために標本を取り出して調べることを標本調査という。

それに対し、全体の傾向を推定するためにすべてのデータを集めて調べることを全数調査といい、調査対象全体の集合を母集団という。

標本調査の必要性と意味として、まず第一に、コスト削減が挙げられる。母集団が大きければ大きいほど、全数調査にかかる労力は膨大になる。標本調査で済ませられたら、かなりの節約になる。

第二に、調査による影響の削減がある。調査方法が破壊的である場合、全数調査をするとすべての対象が破壊されてしまう。これでは困ることもあろう。商品を製造して売ろうとしているのに、検査のためにすべてを破壊するのは本末転倒である。標本調査であれば、調査していない残りは破壊されないから、商品として売ることができる。

全数調査が必要になるのは、個別のデータが必要な場合や正確なデータが求められる場合である。例えば、進路希望調査は、一人ひとりのデータが必要なのであって、全体の大まかな傾向が知りたいというわけではないから、全数調査すべきである。国勢調査は、国民の正確な数を把握するためのものだから、全数調査である。

標本を取り出し整理すること

標本調査のためには、標本を取り出す必要がある。うまく全体の傾向をつかむには、どのように標本を取り出したらいいだろうか。

できるだけ多くの標本を無作為に取り出すとよい。

第一に、標本が多ければ多いほど、母集団の傾向を推定しやすくなる。実際、正確な傾向を知りたければ全数調査をするのが一番である。

第二に、無作為に標本を取り出すと、母集団の傾向が標本に反映されやすくなる。

以上の二つの理由は説明するのがめんどくさいので割愛するが、理屈はともかく経験的に確かめられることなので、気になる人は実際に試してみるといい。

無作為に標本を取り出す方法としては、コンピュータで生成した乱数を利用する方法などがある。コンピュータが利用できない場合、さいころを振って乱数を生成してもいいだろう。母集団の要素一つ一つに番号を割り当て、生成された乱数に対応する番号が割り当てられた要素を標本として取り出せば、無作為に標本を取り出せる。

無作為に標本を取り出すとは、偏りがない、すなわち母集団のうちのどれも標本として取り出される確率が等しいということである。

注意点

もちろん標本調査には利点だけでなく欠点がある。

  1. 取り出した標本に偏りがある場合、母集団の傾向が反映されず、母集団とは異なる傾向を示してしまう。

  2. 無作為に標本を取り出しても、母集団の傾向がうまく反映されず、母集団とは異なる傾向を示すことがある。

  3. 標本の数が少ないと、標本から読み取れる傾向が母集団と異なる可能性が高くなる。

要するに、標本調査による予測や判断には、誤りが生じる可能性が常につきまとう。標本調査による予測を完全に信用することは危険である。

例えば、選挙速報で開票前に「当選確実」を標本調査によって予測するが、ごく稀に予測が外れて「当選確実」と言われていた人が落選するという事例もある。

「0と100以外信用するな」とはまさにこのことである。確率が100%でないのなら、万が一に備える必要がある。

ひとまず、データの活用の話はここまでで終わる。次の連載は「図形」について書こうと思っている。ただ、図を作るのはやたらめんどくさいのでかなり割愛したり省略したりするかもしれない。

いただいたサポートは書籍購入に使いたいと思います