見出し画像

母集団、標本集団、統計量とその推定

さて、データ観測の際に、いくつかの理由でデータの全容を観測できないケースは結構あります。例えば、製造物の検査で破壊的な操作が必要な場合、全数検査をしてしまうと出荷が出来なくなります。ターゲットが全国民になった場合には、全数調査をするには非常に高いコストがかかってしまいます。また、繰り返し実験の場合、理論的には試行は無限回可能になるため、母集団の要素数が無限個になります。このようなケースでは、母集団から一部データをランダムに抽出し限定的なサンプルの解析から母集団の性質を推測する、という方法が有効となってきます。

さて、上記操作で抽出したデータは「標本集団」と呼ばれます。ここで、前回記事では代表的な統計量に関して記述しましたが、このような統計量は標本集団に対しても記述可能です。ただし、これらの量は母集団そのものの影響を受けた量であって、母集団そのものの持つ性質が直接得られるワケではありません(このような母集団そのものが持つ性質を表現する統計量を「母数」と呼びます)。したがって、何等かの操作によって標本集団から母集団の性質を反映した統計量を推定する必要が出てきます(このように標本集団から得られる母集団の性質を推測した統計量を「不偏統計量」と言います)。

さて、主だった統計量として平均と分散(ないし標準偏差)があるワケですが、これらは標本集団からどのように記述されるでしょうか。平均の場合、大数の法則より、データの数が多くなればなるほど母集団の平均値に近づきます。これを一致性と言います※。また、同じ母集団から取得されたサンプルであれば、サンプル数によらずそれらの期待値は母平均と同じになります。これを不偏性と言います。※母平均(期待値)が存在しないような母集団に関しては要注意です。コーシー分布に従う母集団とか。

さて、分散についてです。分散については、一致性は満たしますが、不偏性は満たしません。つまり、標本集団のデータ数が多くなるほど母集団の性質を反映したものになると推測されるのですが、標本集団のサンプル数によってその期待値が変わってしまうということです。これは、標本集団の分散を導出するにあたり、平均を母平均の代替物として使用していることによります(母平均の推定のケースと比較)。従い、データ数(もう少し厳密には、自由度)に応じた補正をする必要が出てきます。不偏分散量(つまり、母集団の性質を直接表現していると推定した量)をσ^2、標本分散(標本集団に対する分散)をσ'^2、データ数をNとすると、σ^2 = N/(N-1)*σ'^2となります。




この記事が気に入ったらサポートをしてみませんか?