新型コロナ統計の異常値の分析

はじめに

アメリカ大統領選も一段落し、今は訴訟合戦の真っ最中である。その結果が出るまでは、トランプ氏とバイデン氏、どちらが大統領になるまだかわからない。前回の投稿では2020年アメリカ大統領選でいくつかのおかしな数字が出ていることを指摘した。例えば、投票率など通常よりもかけ離れた「外れ値」、合計が100%を超えてしまうなどの「異常値」が挙げられた。特に訴訟のポイントとなっているのは、不正集計機の使用と不正投票である。

クロス集計と不正

不正集計機はドミニオンという会社のもので、以前から不正が多いとの噂があったらしい。今回の選挙では32州とワシントンD.C.で導入されたことが、前回の稿を投稿した後にわかった。下の表は、ドミニオン集計機を使用したかしなかったかで、投票結果を分類したものである。

ドミニオン

ドミニオンを使うとトランプ氏が勝てず(勝率30%)、使わなければトランプ氏が勝つ(勝率83%)というルールになっているようである。現在未確定、すなわち、投票の数え直しを実施した州は全てドミニオンを使っていた。この結果に比率の差の検定を行えば、p値が0.0008771 となるので、「ドミニオンを使っても使わなくてもトランプ氏の勝利は変わらない」という仮説は統計的に棄却される。

映画を観ない映画評論家

前回登録有権者数が国勢調査から求めた真の有権者数を上回る州がいくつかあると指摘したが、多数の二重登録や死者や他人になりすましての投票があったという報道がなされた。映画評論家の町山智浩氏が、サインの偽造は難しいのでなりすましての投票は難しいと書いていた(https://miyearnzzlabo.com/archives/69594)。この人はアランドロンの「太陽がいっぱい」という映画を観たことがないのかもしれない。サインの偽造は昔からよくある手口で、映画の中でもアランは何度も何度もサインの筆跡を練習していた。今ではサイン偽造ソフトまであるらしい(https://www.gizmodo.jp/2016/09/text-in-your-handwriting-new-software.html)。さらに、選挙登録はオンラインで済ます人が多い。最近の不正疑惑で選挙データに関する州政府の公式サイトの多くが閉じられているので、オンライン登録した有権者の数を調べられなかった。オンライン登録では電子サインが使われる。これは手書きのサインとは全く異なる。従って、封筒の手書きのサインとの比較は行われない。すなわち、オンライン登録をして郵便投票をした場合、本人であるかの確認ができない、ことになる。さらには、不正投票用紙の存在まで出てきた。

外れ値と異常値

一般的にはデータをとった時、似たような値、一定の値に近い数字が多く集まるものだが、時々かけ離れた数字が得られる時がある。これらの数字のうち、間違って得られたことが判明した数字を「異常値」という。間違っていないけれども、かけ離れている数字のことを「外れ値」と呼ぶ。英語では「異常値」も「外れ値」もともに「outliers」と訳されるが、最近の教科書では、「異常値」を「abnormal value」としているものも多い。前回の投稿で、アメリカ大統領選の異常な数字と称して、選挙に関わる統計の異常値と外れ値を観察し、その原因を探った。例えば、いくつかの州では登録された有権者の数がその州の国勢調査に基づく有権者の数を上回った。これは、「異常値」である。登録された有権者の数、国勢調査に基づく有権者の数、あるいは両方が間違っている。トランプ氏はこの異常を投票用紙の偽造など不正投票によるものと考えているようである。また、通常は55%前後である投票率も、2020年は65%以上とかなり高くなっている。これは「外れ値」になる。今回の選挙は、アメリカ国民の注目が高かったこともあるが、果たしてそれだけが理由なのか、調べる必要がある。トランプ氏はこれもなんらかの不正が行われた結果と考えている。

今回は、新型コロナの統計における異常値と外れ値を観察し、その原因を考察する。


アメリカの感染状況

これほどまでに盛り上がった選挙もないが、一方、アメリカでは新型コロナの感染大爆発が起こった。下のグラフはアメリカの11月11日までの感染状況である。

画像2

感染速度と致死速度


ところで、今回のグラフには、週間死者数を追加した。これは1週間にどれだけ死者が増えたかを表すもので、週間新規感染者が感染者数増加のスピードを表すのと同様、週間死者数も死者数増加のスピードを表す。これを「致死速度」と呼ぶことにする。「致死速度」が大きければ、殺傷力が強いと言うことを意味する。「致死速度」にも波が発生する。今のところ、第二浜で確認できる。第三波は微妙なところである。

「致死速度」のスケール(右の目盛り)は、感染者数のスケール(左の目盛り)の5%である。従って、緑の棒が青の折れ線と交わると単純致死率5%になる。緑の棒が青の折れ線を突き抜けるようなら、致死率は5%よりも高く、逆に緑の棒と青の折れ線とのギャップが大きければ大きいほど、致死率は小さいことを意味する。高須克弥氏によれば、感染症は致死率が低ければそれほど恐れる必要はない、ということなので、ギャップの広がり具合で注意すべきなのかどうかを判別できる可能性がある。

アメリカの感染速度の第三波は9月30日に発生した。それより少し遅れて、10月14日に致死速度の第三波が発生した。アメリカでは、第二波、第三波となるにつれ、波が高くなくが、同時に、青と緑のギャップが広がっていることがわかる。

感染加速度

また、グラフからは、第二は、第三波となるにつれ、上りの傾斜が険しくなるばかりであることもわかる。感染の傾斜の険しさは、感染速度の差で表すことができる。これを「感染加速度」と呼ぶ。感染が拡大している時に感染加速度は正の値をとり、減衰している時に負の値をとる。「感染加速度」の値が大きければ、感染の拡大のスピードが高くなっていることを表す。

「感染加速度」は感染具合を予想するときに使われる「実行再生産数」と同じである。「実行再生産数」は、一人の感染者が何人の感染者を新たに引き起こすかを表した指標である、値が1を越えれば感染拡大中である、1未満なら減衰中である。「実行再生産数」は比を計算し、「感染加速度」は差を計算をするという程度の違いである。

下の図はアメリカの「感染加速度」のグラフである。感染速度の波に成長減衰に対応し山-谷が繰り返されていることがわかる。また、第一波第二波では期間中の感染加速度の値は一定の範囲内に収まっていることもわかる。

画像3

アメリカでは第一波と第二波で感染加速度の高さがほぼ同じである、感染力としてはほぼ同じくらいの勢いを持っていたと言える。しかし、第二波の正の「感染加速度」の期間は第一波よりも長い。その分、感染が広がったと考えられる。また負の「感染加速度」の総面積が正のものの総面積よりもかなり狭い。このことは、波が収まるらなかったことを意味する。

アメリカの外れ値とその原因

しかし第三波では11月11日と18日の加速度の数値が他よりも大きく「外れ値」であると考えられる。第三波が発生した時期は、大統領選の選挙運動が非常に活発に行われた時期である。9月24日以降、トランプ氏は、新型コロナウイルス感染による入院時以外は、アメリカ中を文字通り休みなく飛び回り、多数の聴衆の前で演説を行なっていた。実際、感染加速度は9月23日以降、指数関数的に増加している。

しかしこれをもって、トランプ氏の集会が第三波の引き金になったというのは早計である。まず、トランプ氏は、10月4日から12日まで、新型コロナに感染したため入院していたので、この間一回も人前に出ていない。従って、10月8日から21日までの2週間は、感染加速度が減少す¥していたはずであると考えるのが妥当である。また、選挙当日の11月3日以降は、一斎集会を開いていないので、11月11日と18日の感染加速度が「外れ値」となるくらい大きな数字になるとは考えにくい。何か他の要因がありそうである。

スタンフォード大学のバーンハイム教授が、トランプ氏の選挙集会が、新型コロナウイルスの感染を広めたのではないか、という論文を発表した。この論文では、使われたデータは6月20日、23日及び、8月17日から9月26日までにトランプ氏が訪れた市町村での感染状況と、トランプ氏が訪れなかったと仮定した場合の感染状況を過去のデータから計算したものとを比較している。しかし、過去の感染状況と現在の感染状況は同じではないので、果たして、過去のデータから計算したものが現在の感染状況を表しているのかどうか疑問である。また、トランプ氏が訪れた市町村の近隣との比較は行っていない点も、正確さに欠ける。


日本の感染状況

次のグラフは11月18日までの日本の週間新規感染者数(青い折れ線グラフ)と週間死者数(緑の棒グラフ)である。日本は10月14日頃かから第三波が始まったことがわかる。

画像4


第二波のギャップは第一波の時と比べて明らかに広い。第二波は感染力が強かったものの、殺傷力がほとんどなかった事になる。これが第二波で非常事態宣言が出ず、また、GoToキャンペーンが推進された理由である。第三波ではギャップは十分広いと考えられるが、致死速度が高くなったのでGoToの制限がかかったと考えられる。

日本の第二波の外れ値とその原因

次のグラフは日本の感染加速度である。

画像5

第二波において、8月5日に感染加速度が突然倍増している。これは「外れ値」と考えられ、7月30日から8月5日の間に、感染を急拡大させる何かがあったことを意味する。GoToキャンペーンが7月22日に実施されたがそれのちょうど1週間後に当たるので、GoToキャンペーンが原因で、感染拡大したと考える者もいるかもしれない。しかし、キャンペーンはその後も引き続き行われたにも関わらず、8月12日以降感染加速度はマイナスになっている。従って、GoToキャンペーンが感染拡大の原因になったとは考えにくい。

ではこの時期に何があったかというと、各地の学校でのクラスター感染である。天理大学、三重大学、京都大学や、高校でもクラスターが見られた。ほとんどのケースでクラブ活動が原因と考えらており、活動休止とともに感染数が減少した。学校でのクラスター感染が第二波の主要な原因の一つとして考えられる。

空港検疫

上の図は厚生労働省の発表している空港検疫での陽性者の国籍内訳である。7月は特に外国籍の陽性者数が激増している。3月から7月までの統計からすれば、この値も「外れ値」である。これは日本政府が、国際的な人の往来再開に向けた段階的措置の一環として、一部の国からの入国を認めたことが原因である。日本人も含むこれら入国者は、公共交通機関を使わない、14日間の自主隔離をする、などの感染拡大防止のための要請が行われていたが、実際は、あまり守っていなかったという報道もある。これも8月5日の加速度倍増の原因の一つではないかと考えられる。

日本の第三波の外れ値とその原因

次に第三波に注目すると、11月11日と18日の値が「外れ値」である。第三波が始まったのは10月14日である。にもかかわらず、感染数が上昇し始めたに割には非常事態宣言も出ず、GoToキャンペーンも引き続き行われていた理由の一つに、感染加速度は正の値ではあったが小さかったことが挙げられる。ところが、11月11日に感染加速度の値が前週の5倍程度になり、18日もさらに増えた。これを受けて、政府は20日にGoToキャンペーンの制限を始めた。

この「外れ値」の原因は、第二波のときと同様に、GoToキャンペーンではなく、更なる入国規制緩和が実施が原因である可能性が高い。7月の時には必要であったPCR検査や14日間の自主隔離などが、一部の国からの入国者に不要となった。10月初めから韓国に対して、11月からは世界各国に対して入国規制緩和が実施された。第三波は10月14日に始まった。そして、11月4日以降爆発的に増え出した、という流れにもあっている。

政府がGoToキャンペーンの制限を始めたが、本質的ではないと思われるので、引き続き第三波は成長していくと思われる。しかし、第二波は国からなんの政策も出されていないにもかかわらず減衰したので、第三波も12月に入れば減衰するかもしれない。


カザフスタンの感染状況。

次の外れ値は唐突に中央アジアのカザフスタンである。下の図はカザフスタンの感染状況である。

画像7

カザフスタンでは第一波が非常に長い。途中に2度ほど減衰が見られるが、すぐに元の加速状態(傾き)に戻るので、これらの減衰は集計の都合によって起こったものと考えられる。例えば、13日の減少は、本来13日以前の分として数えるべき件数を、連絡等の遅れで、14日以降に入れて(20日の分として)発表した可能性が高い。このような集計の都合を考慮すれば、この期間の感染速度は、おそらく濃い青の破線のようになったはずである。 


統計の修正

ところで、カザフスタンでは7月末に大規模な修正を行なったことがわかっている。次のグラフは修正前のカザフスタンの感染状況である。ただし9月23日以降は省略してある。

画像8

修正前の第一波に非常に大きなジャンプがあることがわかる。グラフのスケールかジャンプの高さが修正前のほぼ2倍あることがわかる。7月1日の感染速度は、修正後が937であるが、修正前が3185.7で、それ以前の感染速度は平均して178.7なので、実に18倍に増えている。しかし、翌週は半減している。

次の表は Worldmeter での修正前の日々の感染速度の値(新規感染数)である。

カザフ感染速度7月

6月25日から7月1日にかけて、ゆっくり増えたわけではなく、7月1日に唐突に増えていることがわかる。7月1日以前も以降も感染速度は横ばいなので、7月1日の値は「外れ値」である。この時にカザフスタンの「感染加速度」は18754で、世界全体では23791だったので、ほぼ80%カザフスタンで加速されたことになる。また、これより大きな「感染加速度」はアメリカの11月4日から18日(20667, 32382, 36832)とイタリアの11月4日(29062)しかない。アメリカの異常値は大統領選の不正と関連している。

次のグラフは、修正前後の感染速度グラフの比較である。赤線が修正前で、青線が修正後である。修正後は、ジャンプが消え、瞬間最高速度がほぼ半減している。一方、7月1日以前での感染速度が少し高くなっていることがわかる。

画像10


次の表はグラフの元となった趨勢前後での感染速度の数値である。

カザフ感染速度比較

修正前後で割合を比較したら、ほぼ全ての週で1.84倍であった。おそらく、累計感染者数を同じにするために、「外れ値」である7月1日の値を、約30%に減らし、残りの70%を倍率が同じになるように7月1日以前の数値に均等に分配したのであろう。あまりにも杜撰な処理である。こんな所まで計算をするような人間がいるとは思わなかったのであろう。

カザフスタンで6月末に何があったのか

先程述べたように、データの修正はよくあることである。連絡が遅れたために、後から追加するケースが多く、過去のデータよりも多少増えたり減ったりしている。小規模なものはいちいち発表しないが、大規模なものでは、理由を添えて発表をする。例えば、フランスは「感染数」の数え方を変更したので、6月3日に約35000人ほど感染数を減少させ、それ以前の数値を修正したことがある。 これによって、3、4、5月の数値が変わったが、カザフスタンのように一様ではなく、感染速度が増える週もあれば、減る週もあった。

Wikipedia ではカザフスタンがなぜこのような修正を行なったのかについては言及がないが、集計方法の変更があったのではと推測している。しかし、大抵の場合、政治的な何かがあった可能性が高い。では、6月末にカザフスタンで何が起こったのか。果たしてカザフスタンでは、何かあったという報道はなかった。しかし、中国では、6月28日に内モンゴル自治区でのモンゴル語の使用を禁止するなど漢化をより強化することを発表した(https://uyghur-j.org/japan/2020/09/ujmogol20200901/ )。さらに6月30日に香港国家安全維持法を成立させた(https://uyghur-j.org/japan/2020/07/hongkong/ )。実はカザフスタンには、ウイグル人が23万人ほどいる。そしてカザフスタンは中国、それも新疆ウイグル自治区と国境を接している。さらに、新疆ウイグル自治区でも、以前からウイグル語の使用が禁止されていたり、世界的に有名な企業の工場で強制労働させられたり、強制避妊手術を受けさせたり(https://uyghur-j.org/japan/2020/07/birthcontrol/ )と、300万人以上のウイグル人たちが強制収容所に入れらたりという報道も多い。また、日本では6月末ウイグル人権法案のための署名をというツイートが広まった。


外れ値の原因ー中国からの脱出

ここから先は全く私の推測であるが、6月末にウイグルの収容所から大量の脱走があり、カザフスタンへ逃げ込んだのではないか。6月22日頃にカザフスタンへ逃げ込めば、当然当地のウイグル人やそのサポーターたちが手助けをしただろう。虐待されていた同胞が逃げてきたわけなので、おそらく、手助けをした人たちは感染予防どころではなかったと思う。もし脱走者の中に感染者がいれば、確実に周りの人達が感染してしまう。新型コロナウイルスは感染してから5日ほどで発症するので、新たに感染した人たちは6月27日以降に発症し、7月1日以降の感染者統計に反映される。さらに感染速度のジャンプが1回しかないので、脱走は1回限りのものであったと考えられる。

画像12

ウイグル人の脱走事件は以前にも起きている。2014年に350人がタイへ逃げたが、拘束され、翌年109人が中国に強制送還された。今回はどうであろう。カザフスタンに入国したウイグル人たちは、その後どうなったか。ここで、キルギスの感染状況を見る。下の図はキルギスの修正前後の感染速度グラフである。赤線が修正前で、青線が修正後である。

画像13

修正前には7月22日に感染数のジャンプがあったが、カザフスタン同様修正後ジャンプは見事に消えている。また修正後の感染者数は、カザフスタン全く同じように、ほとんどが1.83倍になっている。二国で共同してして、修正したのだろうか。

キルギスはカザフスタンの南に位置し、そのさらに南で中国の新疆ウイグル自治区と国境を接している。カザフスタンと新疆ウイグル自治区の間には道路や鉄道が通り交易が盛んであるが、キルギスと中国の国境は天山山脈があり国境越えのルートは限られている。キルギスにもウイグル人が5万人ほどいる。従って、中国から直接キルギスへ、あるいは一旦カザフスタンに逃げてから、キルギスへさらに渡ったのではないかと推測される。個人的には、カザフスタンに杉原千畝のような人がいて、脱走者を中国に送り返さず、ロ逃してくれたのではないかと思っている。残念なことに、新型コロナウイルスを各国に持ち込んだようであるが。

感染状況を見れば、カザフスタンの南西、キルギスタンの西に位置するウズベキスタンや、カザフスタンの北にあるロシアへもいったように思える。ウズベキスタンには5万人ほどのウイグル人がいる。ウズベキスタンでは7月1日から波が発生し、8月5日にピークを迎える。波の高さはそれほどでもないが、波の発生時期とウイグル人たちの脱走の時期が微妙に重なる。ただし、ウズベキスタンの感染数は修正されていない。

ロシアにも約四千人のウイグル人がいる。ロシアは5月13日以降順調に減衰中であったが、7月15日に急増していることを、前々回指摘した。この時は、集計の都合であろうと推測したが、もしかしたら、ウイグル人の逃亡を手助けしたためかもしれない。


脱走の影響ー管理の強化

中国も、カザフスタンもキルギスも全く、脱走のことを報告しない。報告をしないからといって、脱走がなかったとは言い切れない。もし脱走が事実とすれば中国にとって決定的なマイナスになるからである。

まず、もしかしたら収容所に入っていたものまでが、脱出したということは、新疆ウイグル自治区では、北京に対する反抗が始まったと考えるていてもおかしくはない。モンゴルや、香港、チベットが脱走のことを知れば、それらの地域でも、北京に対する反抗の目が出てくることは間違いない。それゆえ。カザフスタンとキルギスに脱走者の返還を公式に求めることができない。また、そのような反抗を防ぐためにも、あえて脱走のことを報道しなかったと考えられる。さらに、反抗を事前に押さえ込む目的で、漢化教育の徹底と安全維持法を制定を、予定よりも早く実施したと考えられる。

もしカザフスタンやキルギスが脱走を報道すれば、中国は、当然強制返還を要求するだろう。しかし、強制変換に応じれば、彼らが、中国に残った仲間とともにさらなる虐待を受けると考えられる。受け入れ側ではとぼけておいた方が得策である。感染数をお修正したのもこの一環であると考えられる。


不正データあるいは人体実験

次に問題なのは、脱出したウイグル人たちがかなりの割合で新型コロナウイルスに感染していた可能性があるということである。新規感染者数が一日で2万人を超えるということは、日本風に計算すればカザフスタンの実行再生産数は1.4なので、少なくとも15000人の感染者が前日にいたと推測される。カザフスタンの発表では、前日の感染者数は8600人なので、半分くらいしかない。どこからか、感染者が大量にやってきたと考えるのが自然である、つまり。脱走したウイグル人たちのうち8000人ほどが感染者であった可能性が高い。そうなれば脱走は万単位ではないかと思われる。

ところがこの時期中国は、感染はほとんど収まっていたと豪語していた。WHOも中国の対策を見習うよう通達をしていた。6月末、7月末にちょっとした感染数の増加があるが、1日平均50人程度で、波と呼ぶには数が小さい。もし脱走が事実なら、少なくとも新疆ウイグル自治区には、少なくとも数千の感染者がいたことになり、中国の発表と完全に矛盾する。つまり、中国はウイグル人の感染者を数えていなかったと考えられる。ここからすれば、当然他の地域でも故意に感染者を数えていなかった可能性が生じる。カザフスタンでの感染爆発を考えれば、中国には現在発表されている数の少なくとも20倍の感染者がいると思われる。11月末で、9万人弱なので、180万人程度か。これだけ数を誤魔化していたら、減るものも減らない。

あるいは、自治区で新型コロナの感染状態を人工的に作り出し、いろいろな実験をしていた可能性も考えられる。もちろん、ウイグル人たちはこのことについては知らされていないであろう。実際に中国では武漢での実績がある。

中国は、カザフスタンとキルギスで致死率の高い未知の肺炎が広がっているという報道をした(https://news.yahoo.co.jp/byline/nishiokashoji/20200710-00187537/ )。どうして新型とわかったのか説明がない。これは、カザフスタンとキルギスに対する脱走者の返還要求とも考えられる。逆に、ウイグルで新型の実験をしていたので、忠告をしておいたとも考えられる。これについての続報は一切ない。

終わりに

アメリカの方は推測がだんだん現実になっていくので面白い。統計だけでは、証拠にならないが、証言が増えているし、不正な投票用紙など証拠も出てきているようである。トランプ陣営の不正追及の姿勢はデータ科学の基本である。カザフスタンの件は推測の域を出ていない。しかし、辻褄は合っていると思う。

この記事が気に入ったらサポートをしてみませんか?