見出し画像

コロナウイルス(COVID-19)感染者数はもっと多いかも?!統計学で科学する Vol.2

皆さん、こんにちは!けんたろと申します!
数学とファイナンスがとても得意で、良く講義などさせていただくのですが、
今回は志村けんさんがお亡くなりになられたことが日本中の緊張が一段各上がりになった、COVID-19関連で統計学を使って、NEWS等の違和感を解消していこうかなと思います。
現在PCR検査で陽性が

確認されている患者数よりもはるかに多い潜在患者がいる
のかも

という主張を統計的に明らかにしていこうと思います!

前回のnote投稿

前回、「PCR検査を万人にしてはいけない理由」を書かせていただき
こちらも統計的アプローチからその理由と対策、またビジネス領域への適応についてまとめました。「イノベータ人材/経営者資質人材」を統計的に探したい方などへのポイントも記載してます。
そちらもよければ是非お目通し頂けると嬉しいです^^

では前回から少し話題を変え、下記問題を取り扱っていこうと思います!

はじめに

スライド2

今回は、統計学における”検定”という分野に触れていきます。
難しい話はできる限り少なく記載していきますが、数式は触れざるを得ないので、苦手な方は計算プロセスは吹っ飛ばして下さいw

さて、写真に書きましたが皆さん
コインを投げて、10回同じ面」が出たらどう感じますか?

コインへの細工や、不正を疑いますか?
それとも偶然と思いますか?
多くの方は前者の不正について直感的に疑うのではないでしょうか。

ラスベガスであるギャンブラーはルーレットで同じ色が5回続いたら6回目に逆の色を張るという賭け方を戦術に選ぶ人がいるくらいなので、
それが10回続くなんて、僕も不正を感じるな、と思います。

今回のお題:志村けんさんの結果からみるCOVID-19

では下記問題はどちらが発生確率が高いと思いますか?

スライド3

Aは先ほど触れた通り、コイントスが同じ結果になり続ける確率ですね。

Bは今回、世間がびっくりした「志村けんさんのCOVID-19感染」の報道に関する確率の質問です。このNEWSは、その後驚きも収まらぬままご本人がお亡くなりになられとても悲しいNEWSになっちゃいましたね。。。
そんな志村けんさんが今日のPCR検査の2000名強の陽性患者の1名にカウントされる確率ってどんな感じなんだろう・・・

今回はこれを”検定”という統計アプローチを使って考察してみます!
※今回の条件設定など私見が一部含有します。お許し下さいm(__)m

ちょっと選択肢Bについてファジーな部分が多いですね。
統計的に計算するために、もう少し定量的に書く項目の数字を見ていきましょう!計算に関しての諸条件は下記通りです

スライド4

志村けんさんについて、「天才!志村どうぶつ園」というゴールデンタイムのレギュラーの番組を持っており、キー局で自身の冠番組を持つ人なんて100名もいないだろう、ということで今回分析していきます。
なお、この100名という数字が適当か、ここについても後半で数を変えながら考察してます。このあたりは関心ある方最後までお目通し下さいw

ということで、
「A」or「B」
みなさん、どっちの方が発生しやすいと思いましたか?




一度、イメージしてから読み進めてください!!
この辺は「直観」です。計算しないとわからないので・・・


結果はっぴょーーーーーーーーう!!!

の前にそれぞれの確率を見ていきましょう!

スライド5

まずは「A」!
10回全てが、表or裏になる確率なので、1/2の10乗×2が答えになります。
つまり
0.195%!!

コイン10回投げを、500SETやって1回でるかでないか、という確率ですね。
500回に1回。さすがにこれは少ない!よっぽどのことがないと引かない。
コインの不正を疑いたくなりますね。それでも500回に1回は引いてしまうので、不正と言い切れない。ここもまた統計の面白いところですね。

スライド6

つぎに「B」を見ていきましょう!
計算式は図中に記載しましたが確率です。
0.189%!!

こちらもめちゃくちゃ少ないですね。考察に行く前に、まずは冒頭質問の結論からまとめます!

スライド7

発生確率はコイントス10回全て同じ結果の方が発生するという結果ですね。
「え?!つまり、志村けんさんが感染する確率ってそんなに低いということ?」そんな声が漏れてきそうですね。

(今回の条件では)、そういうことなんです!

志村けんさん(TOPタレント)がCOVIS-19に感染している確率って
コイントス10回同じ結果よりも低いんです!!!!

大事なことなのでもう一度言います!

\コイントス10回よりも起きにくい確率が生じてます!!/


さあ、このあたりもう少し掘り下げます。

まず、”検定”の前提条件から触れますね。
皆さん、上記0.2%以下の確率は不正など疑う結果かと思いますが、
ではいくらだったら「偶然悪い結果引いたのかな?」って割り切れますか?


何%なら「不正」ではなく「偶然」と納得するのか

スライド8

先ほどのコインに戻って確率を計算していきましょう!
図に表が出た回数をXとし、0~10回のそれぞれの発生確率をまとめています。

どうですか?もちろん裏表きっちり5回づつ発生する確率が24.61%と一番多いですね。
そこから離れるほど確率は減っていきます。表が2回、8回(=裏が2回)に至っては、4.395%になります。

ではどこからが「偶然」と「不正」の境界線になるのか
実はこれには答えはありません。感覚的に決めます。数学の問題で感覚が出てくるのもまた不思議な感じがしてワクワクしますね。
(↑共感してくれる人は、友達なりましょwwww)

話を戻します!
統計学では、この境界線を5%に引くことが多いです。この5%は感覚です。ケースに応じて意味付けていきます。
例えば、シビアに見なければいけないところではこの境界線をシビアな値にすることもあります。
自動車部品では「6シグマ」といって、欠品発生確率を100万個に2-3以内のにすることが有名ですね。
逆にもっと緩い境界線を選ぶケースもあります。

なお、今回は一般的な5%(裏表の同率事象を区別する意味を持たないので、両側で2.5%)を使用していきます。

つまり、図の赤枠内は「偶然」起きるし、赤枠外が生じたときは「不正」を疑います

これが検定における前提の考え方です。
なお、これらの計算方法について、関心ある方は記事の最後に補足項目付けておきました。

本題:何名の潜在患者がいる可能性があるのか?

スライド10

今回は、2020/04/03 政府発表数値の
PCR検査陽性結果:2381名を使って計算しました。

ではこれが何名だったら、志村けんさんが陽性患者として混ざっていても違和感がないのか?
1、000名?10、000名?100、000名?


既に図に応えは掲載しちゃってるんですがが、
さきほどの検定5%(発生確率が5%以下になるものは棄却する)を使用すると

患者数は65,000名いることになります。

言い換えると、

「冠番組を持つTOPタレント(国内で100名程度)が陽性というサンプルが得られた時、
国内では65,000名を超える陽性患者がいないときには何かしらの前提に不整合が生じている可能性が高い。」

こういうことです。

65,000名・・・

しかもこれ5%というもっとも楽観数値(感染者数が本条件において、起きうる確率のうち最も少ない人数)でです。
中央値となる50%になる確率時には87万人。悲観数値では380万人という結果になります。

今の2000名強という結果とは大きく乖離がある結果ですよね。
前のレポート(https://note.com/murajuku/n/n7bfe7e573013)でも書きましたがPCR検査の対象を意図的に絞っている状況で、
検査をしていない人のうち、感染している方の数は、本統計結果からも、もっともっといるんだろうなということが疑われますよね。

もちろん前提条件に誤りがある可能性もあるので、そのあたりも考察していこうと思います。

前提条件への考察

スライド11

今回の前衛条件のうち、もっとも論点になるのは志村けんさんのようなTOPタレントが国内に100名しかいないという条件ではないでしょうか。
つまり数学的には恣意的に抽出した結果だから、レアなケースになっているだけではないか、という疑いを持たれる方もいるのでは?という論点です。

ということで、志村けんさんについて、どんな母集団なのか、変数にとり分析してみます。

テレビに出るタレントが何名いるか、
やはり新聞のテレビ欄を見てもそう多くの芸能人は記載されていない。100名は妥当かと思うが、

タレント名鑑には約1万名のタレントが掲載されているとされてます。
今回の100名から10,000名までサンプル母集団を変化させたときの結果を上図に示しました。

難しい計算は置いておいて、検定値5%を超えるには2700名の母集団のとき1名が感染していたときという計算結果でした。

スライド12

また、タレント名鑑1万名から1名が感染(今回のしむらけんさん)とした場合は、今回同様の計算結果は17.219%で、
コイン3回以上の裏表回数の結果と同等の結果になります。これだと置きそうな結果ですね。
でも、今回実名報道がされていないので検証できないが、2381名の感染確認患者のうち、志村けんさん以外に1名以上のタレント名鑑掲載者が感染していた場合、1.575%とまた5%を下回ることになる。

本日(2020/04/05)、森三中の黒沢さんの感染報道がありましたが、やはり上記に照らしても感染者数はもっともっと多い傾向なんだろうな、と思います。

今回はTOPタレントという少し主観の入ったグルーピングでの考察でしたが
黒沢さんの事例を受けて、タレント名鑑1万人の母集団をベースに検定をしたとしても、
(1万名の中から2名が感染確認)という結果は
1.575%しか起きない大変稀なこと=何か前提におかしな部分がある
ということでしょうね

ちょっとこのあたり複雑だったので、
メッセージをまとめると、やはり志村さんが陽性という結果は現在確認患者よりもはるか多い人数の潜在的感染患者がいることを示唆する結果になったんじゃないかなと思います。


まとめ

ちょっと今回は、不用意に危機感を煽る内容でとても恐縮ですが、
統計的には、今回のサンプル結果はとても違和感のある結果だということがまだ広く認知されていないな、と思うので分析結果をnoteにまとめました。

みんな大嫌いな数学ですが、定量情報を正しく理解して、
より状況を正しくみる習慣ができるといいなと思い、今回のnoteの内容になってます。

最近、色んなアンケートを見ます。
もちろん対象者全員にアンケートを投げることはできないので、一部限定的な対象に対しサンプル結果を得て、統計的にまとめていくんだと思いますが、
統計的には危険な主張もとても多くみます。今回の検定という視点、この記事を皮切りに関心持たれる方が増えたらいいな、と思います。


けんたろ

----------------------------------------
twitterもやってます|フォローしてね!
けんたろ|コミュニティ運営&採用人事 @murajuku

もしよろしければnoteのスキとフォローをお願いします。
シェアや感想をいただけると次回作への励みになります^^
----------------------------------------


補足:コイン裏表の確率計算方法

スライド9

表3回裏7回が生じるパターンは上図の通り、
1回目:表、2回目:表、3回目:表、4回目以降:裏
1回目:表、2回目:表、3回目:裏、4回目:表、5回目以降:裏
・・・・
と120通りあります。
高校数学、コンビネーションで算出可能だとうっすら記憶にはいでしょうか?(ないですよねw)
計算過程は置いておいて、

計算結果は図中記載の通り、求めると11.75%となります。
表が4回(=裏は6回)でるときの求め方は、図の”3”と記載されている部分を”4”に置換し、”7”と記載されている部分を”6”にしていただければ計算できます。


スライド13

図中グラフで計算結果示しましたが、こちら具体数値置いておきます!

この記事が気に入ったらサポートをしてみませんか?