統計の基本はデータを集めること

言うまでもなく、データがなければ統計処理はできません。

データがなければ何が起きたのか現状の把握はできないし、将来計画も立てられません。過去の施策の評価も分析もできません。例えば新型コロナの検査陽性率が異様に高いということは、正確な感染者数が把握が全くできていないことを意味します。まずは統計処理・分析を行うために、とにかく検査数を増やし、できるだけ正確な感染者数を得ることが重要です。

しかし、実際には何処まで正確な数の把握が必要か、というコスト・資源や手間の問題の問題も出て来ます。新型コロナの検査陽性率がどの位まで下がれば良いか、という判断は難しいのですが、例えば2020年のニューヨーク州。2%以下であれば、感染状況を概ね把握できる、というノウハウがあり、2%という数値を目標に検査数を広げていました。

日本でも、感染状況を把握できるだけの検査を行って欲しいものです。


標本調査
さて、統計学の基本は「標本調査」にあると言っても良いでしょう。まず、知りたい集合の条件を定めます。この集合を母集団と言います。多くの場合、様々な制約から母集団の全数の調査はできません。そこでサンプルを抽出して母集団の統計量を推定する方法が標本調査です。サンプルは、できるだけ偏りがないものを選びます。

結果は、予め定めた確率(例えば95%)と区間推定という幅を持った値で表現されます。サンプルサイズが大きいほど、区間推定の幅は小さくなります。得られた値の信頼性が高くなります。

一番良く知られている標本調査は、視聴率調査、世論調査、各種支持率調査でしょう。しかしそのほとんどの結果は区間推定ではなく、点推定という1つの数字で表されてしまいます。区間推定なら、数値の信頼性を理解しながら議論ができるのですが、日本ではこの「区間推定」を知らない人がほとんどのようです。

一番身近な区間推定の例は、恐らく台風の進路予測だと思います。台風の進路は進路の中心(点推定)とその周辺の可能性を示す予報円(区間推定)で示されています。

私の講義では、区間推定が行われている例を探して下さい、という課題を出します。かなりの人が苦労するのですが、ほとんどが最終的には例を見つけ出すことに成功します。例として多いのが、野生生物の数の推定、様々な将来予測(将来人口予測、出生数予測など)です。学問の分野では、何らかの計測(推定)を行ったら、必ず結果は区間推定と言っても良いでしょう。


標本調査は、幅がある推定です。正確とは思えないかも知れません。しかし集めたデータを使った調査にばらつきがあるのが当たり前だ。実際を把握するには、幅があってもある程度推定できることが重要だ。このような考え方が標本調査の基本であり、ここ100年位の間の学問的な成果なのです。


新型コロナの感染者数
新型コロナの検査は、普通の意味での標本調査とは違います。目的が陽性者の把握であるため、できるだけ感染リスクが高い人を検査していると考えられるからです。今検査で得られている感染率が、そのまま母集団の感染率とは考えられません。

実際の感染者数は、状況をモデル化することで推測できます。(この分野のことは詳しくないのですが)感染リスク毎に層化を行って、その中の感染率を組み合わせて全体を推測する方法が取られているようです。「データは正しいか」では、いろいろな方法があり、それぞれ推測には幅があることを紹介しましたので参考にしてみて下さい。