厚労省・新型コロナ陽性者データに内在する不可解な矛盾

議論とデータ

新型コロナウイルスの対応について、日本中で議論が巻き起こっています。曰く、検査数は増やすべきか否か、日本の実際の感染者数がどれぐらいなのか、いつごろ収束するのか、他国より対策がうまくいっているのか否か、全国一斉休校に意味があるのかなどなど。そうした議論は民主主義国家として望ましいものですが、しかし生産的な議論を行うためには、まず共有可能で信頼できるデータが必要不可欠です。

データ分析の世界ではgarbage in, garbage out「ゴミを入力すれば、ゴミしか出力しない」と、よく言われます。有意義な分析をするためには、最低限、データがまともである必要があります。まともなデータとは、最低限、正しいデータ入力と、論理的整合性が必要です。だからデータアナリストは、分析の前に必ずデータの整合性を検討し、矛盾のないカテゴリ体系を設計し、データの整備に過半の力を注ぐのです。

厚労省データは信頼に値するのか

現在、日本国内の感染状況について議論する際に、最も信頼されているのが、厚生労働省が毎日発表している感染状況のデータ「新型コロナウイルス感染症の現在の状況と厚生労働省の対応について」でしょう。

しかし、厚労省データは、信頼できるものなのでしょうか。もし、このデータが深刻な矛盾を抱えているとすれば、私たちは何に基づいて判断し、政策決定を行えば良いのでしょうか。

私が検討を始めたのは、日本国籍者の数字に直感的に違和感を感じたからでした。3月19日でいえば、国内事例892人のうち日本国籍者が642人。逆に言えば、陽性者のうち28%が外国籍者ということになります。

3月19日厚労省データ

このうち、空港検疫で引っかかった人は、合計7例しかありません。しかも、この外国人率は、ここ最近、日に日に高くなっている。日本には外国籍の人はたった2%しかいない。外国人旅行客は途絶え、とっくに市中感染のフェーズに入っているはずなのに。どうも不思議だ・・・。

データ分析において、こういう違和感こそ非常に重要なものです。ここから、データの誤りを発見したり、あるいは分析上の知見を得られる手がかりになり、それが分析者のセンスが問われるところです。

新規外国人陽性者がマイナス値に

ともあれ、こうした違和感を手がかりに、私は2月17日以降毎日発表されている厚労省の国内事例における累積陽性者数・うち日本国籍者数をExcelにプロットしていきました。そして、陽性者から日本国籍者を引いた数字を自動的に外国籍者数とみなして、陽性者数における外国籍の比率を出してみました。それがこのグラフです。

陽性者累積

ぱっと見で気づくのは、3月10日以降、外国人数が急増、それにつれて外国人比率がV字型に、非連続的に反転しているということです。これは「累積」の比率なので、ちょっと起こりにくい出来事です。

しかし、最も深刻な問題はそこではありません。よく見ると、外国籍者数が、「累積」のはずなのに減少しているのです。どういうことでしょうか。累積の差分を取って、上のグラフを新規陽性者数のグラフに変換します。

新規陽性者

これを見ると、日本国籍者の数は常にプラスなのに対して、外国籍者はなんと頻繁にマイナスになっているのです。それに伴い、新規陽性者のうち外国人比率もマイナスになるという、理解することが不可能な事態が発生しています。

こんなことは流石にありえない、ishtaristが何か根本的な勘違いをしているのではないか。そう思う人がいて当然です。実際私も最初、自分のミスを強く疑いましたが、どうしても見つけられませんでした。

具体的にデータのおかしさを確認する

具体例で実証します。

たとえば3月16日、国内事例における陽性者数は累積794名、うち日本国籍者は576名と明瞭に記されています。そのため、外国人は794-576=218名です。

3月16日厚労省データ

それに対し、翌3月17日。国内事例は809人で前日より15人増加。うち日本国籍者は599人で、前日より23人増加(599-576=23)。陽性者の増加数より、日本国籍者の増加数の方が多いのです。

3月17日厚労省データ

したがって、17日の累積外国籍者数は、809-599=210人。前日からの増分は、210-218人で、マイナス8人。言い換えると、新規陽性者15人から新規日本国籍者23人を引いた8人が、外国籍者の減少となっているとも言えます。外国人率は奇跡?の-53.3%です。

これは、検査対象に偏りがある、あるいは検査数が抑制されているというような問題ではありません。事の性質上、論理的に起こりえるはずがない矛盾が、国の政策決定の根幹にあるべきデータに表われている、という話です。しかも、この異常値は、たまたま何らかのミスで1日だけ表われたという話ではありません。たった1ヶ月の間に7回も発生しているのです。

したがってデータ分析者としては、最低限の論理的整合性も備えていない厚労省データは信頼に値しないという結論にならざるを得ません。もう一度データ設計と測定・入力方法を、ゼロベースで洗い直すところから始める必要があります。

なぜありえないデータが生まれたのか

しかし、どのようにして、このような矛盾が起こりえるのでしょうか。検討したのですが、考えられそうな原因は今のところ以下の2つほどです。

①日本国籍者以外のところに、外国籍か日本国籍か未確認の「国籍不明者」が含まれている。そして、日本国籍者数が判明してから後追いで入力しているために、見かけ上外国人が減ったように見える。

②陽性患者数と日本国籍者の数を恣意的に変更したために、裏側の外国人患者数が論理的に整合性を保てなくなった。

どちらでしょうか。両方、あるいは他の可能性があるのでしょうか。ここからだけではまだ判断が付きません。ただ、①だとすれば、少なくとも言えることは、新型コロナ陽性者が外国人に偏っているという印象を結果として与えることになります。②だとすれば、さらに問題は深刻です。

他にもある問題点

あと2つ、問題があります。

●厚労省のデータでは、そもそも被検査者のうち、日本国籍者と外国籍者の内訳が公表されていません。母集団が公表されていないのに、結果だけ公表されているのは非常におかしなことです。仮に陽性率が両者同じだと仮定するならば、人口の2%しかいない外国籍者に、検査リソースが割かれているということになります。特にここ数日(3月中旬現在)は、外国人比率が50%を超える日が珍しくありません。このままでは、検査対象に偏りがあるのではという疑念を払拭することができません。

●最初に挙げた3月10日前後からの累積外国人比率の急増も、論理的に不可能という訳ではないのですが、非常に不自然な動きです。陽性者のうちの外国人比率は、時間がたつにつれて、日本社会における外国人比率である2%に漸近するのが自然だからです。それがエントロピーの法則というものです。原則として、ウイルス感染は国籍を選ばないのです。

もちろん、ウイルス感染をした外国人の流入が増えていれば、話は別です。しかし、3月9日に中国・韓国からの入国制限を開始したこと、(来月の政府統計で正確なところがわかりますが)3月の訪日者数が激減していると予想されることから考えても、この外国人比率の急増は、どうも説明が付きにくいように思われます。

いずれにせよ、厚労省データの外国人比率に関する数字は信頼ができるものではありません。しかし、この外国人比率が、政策に影響を与える可能性が高いのです。仮に見かけ上の外国人比率が高ければ、国内での封じ込めに成功したとみなされ、自粛ムードは明け、水際対策に力を入れるようになるかもしれません。その判断が実際のコロナウイルス感染の実態とズレていたとき、その結果は悲惨なものになりかねません。

今後の専門家会議の提言や政府による政策・命令に対して、我々としてはよりいっそう、合理的な論拠を求めていく必要があるでしょう。

追記

続きの記事を書きました。

是非ご査収ください。

続報1 厚労省データ処理の根本的な誤謬と、流氷原を漂流する巨大客船
https://note.com/ishtarist/n/ncc42e8b02546

続報2 厚労省さんの「お返事」と、私からのお願い
https://note.com/ishtarist/n/n39f8d034cc7e

続報3 厚労省データと、安倍政権の反民主主義的体質
https://note.com/ishtarist/n/n0dc0c52f9ed4

続報4 新型コロナ感染者の一元管理システムは役に立つのかhttps://note.com/ishtarist/n/nbfd4c1d337e0

この記事が気に入ったらサポートをしてみませんか?