見出し画像

【統計学のワナ】サンプルの集めかた

今「ReHaQ」というYouTube番組を見ていたら、文藝春秋の新谷学が出ていた。

総局長である。

非常に楽しかったが、一つだけ気になった。

彼は文藝春秋と週刊文春の両方の年間契約をしてくれている人をロイヤルカスタマーと呼び、アンケートを実施したと言っていたと思う。

これはダメだ。

統計学の基礎の反対を極めている。

統計学の基礎は''ランダム''だ。

そんな文藝春秋も週刊文春も、しかも年間契約までしてくれている人はなにもしないでも買う。

聴くべきは駅頭で何気なく買う人、週刊新潮を読んでいる人、新聞を読んでいる人、スマホを見ている人、ぼ~ッとしている人。100人でいい。

ランダムにサンプルを取る方法は一冊の本が書けるレベルなので端折るが、1行で説明すると100人くらいサンプルが集まれば、かなりの数がカバーできるから、大数の定理と中心極限定理から、オッケー。

それではあんまりだからもう少し具体的に言うと、大群をいくつか作って、中郡、小群と分けていく。その中から無作為にサンプルを取っていく。大群が一万だったら、中郡は千、小群は百みたいなイメージです。

よくテレビで視聴率発表のときに言うRDDとかいうのがあるじゃないですか、無作為2段階抽出。

コンピュータが家の固定電話の番号を2回ランダムに選ぶって意味だと思うんですけど、家の固定電話に出られのは誰かっていったらこれもサンプルにバイアスがかかっているので厳密にはダメ。

どんな複雑な計算でも今はコンピュータがやります。

しかし、コンピュータが優秀でも、GIGO(Gogage in gobege out)、ゴミを入れたらゴミしか出ない。

どんな仕事も始めたときには終わっている。準備がすべて。

統計学もデータが精確であれば、計算はクリック一つです。準備が大変なように精確なデータ集めが大変なのだ。

また仕事もその後が大切なのも一緒。こちらは分析ですね。因果関係が逆じゃないか、初歩的なミスから、細かい論理構成に教授陣に突入らせるスキがないかチェックする。

だから一番はじめのサンプルの集めかたというのは非常に大事なのだ。いい加減なサンプルでは研究がまったくムダになる。

そしてサンプル集めの基礎は''ランダム''、これを覚えてください。

標本抽出という名前で科目になっています。



計算でつまったらノートに写してみてください。考えてむつかしい場合、コトバでナニが分からないか記入してノートのコピーを送ってください。