見出し画像

公認会計士たるものデータがあると集計してグラフを作りたくなるので作ってみた ~群馬県における新型コロナ感染症陽性者数を自ら集計してみた~ ②

昨日に引き続き、群馬県新型コロナウィルス感染症対策サイト(https://stopcovid19.pref.gunma.jp/)からダウンロードしたCSVを、手許であーだこーだと集計して表やグラフにした結果を載せます。

集計はさしあたって2021年12月31日判明日までのデータとしています。

また、データ数nは17,395となっていますが、例えば、居住地が不明だったりデータ空白だったり、年代や性別は調査中となっていたりで、特にクロス集計するとその合計が17,395にはなりません。

連番は昨日に引き続いています。

(5)地域年代クロス集計表


画像に引き続き、その元となった集計表PDFも置いておきます。

単なる集計にとどまらず、ちょっとした修飾・加工を施している時点で作成者の意図を隠しきれていませんが、ここではこれ以上コメントはしません。

群馬県における新型コロナ陽性者数地域年代集計~2021.12.31_page-0001

群馬県における新型コロナ陽性者数地域年代集計~2021.12.31_page-0002

群馬県における新型コロナ陽性者数地域年代集計~2021.12.31_page-0003

これらのクロス集計表を要素(地域・年代)別にグラフにし直したのが、以下になります。

期間区分は以下によります。

【人口(千人)】住民基本台帳に基づく2021年1月1日現在における県内各市町村年齢別人口
【全期間】 発生時(2020.3.7)から2021.12.31まで
【第1波】 発生時(2020.3.7)から2020.5.31まで
【第2波】 2020.6.1から2020.11.30まで
【第3波】 2020.12.1から2021.2.28まで
【第4波】 2021.3.1から2021.6.30まで
【第5波】 2021.7.1から2021.9.30まで
【小康期】 2021.10.1から2021.12.31まで

なお、(6)(7)については、群馬県外等の448を除いて集計しなおしているため、全期間合計数は16,933となります。

(6)地域別100%積み上げ横棒グラフ


各期間の合計数を100とした場合の「地域」の割合を見るグラフです。【全期間】と【第1波】 の間は時期的なつながりがないため区分線を消したいところです。また、数値に合わせて割合もデータ要素として表記したいところですが、作成者のExcel能力の限界であり、この修正は他日を期したいと思います。

地域別

(7)年代別100%積み上げ横棒グラフ


各期間の合計数を100とした場合の「年代」の割合を見るグラフです。【全期間】と【第1波】 の間は時期的なつながりがないため区分線を消したいところです。また、数値に合わせて割合もデータ要素として表記したいところですが、作成者のExcel能力の限界であり、この修正は他日を期したいと思います。((6)のほぼコピペ)

年代別

(8)男女別100%積み上げ横棒グラフ


元データに性別があるので、期間別に性別を出したものです。

ここで、全期間のデータ数が17,379(9,780+7,599)となっていますが、これは、年代別男女別クロス集計表を作成して、その合計数が17,379となっているからです。年代別男女別クロス集計表は、割愛します。

男女別

(9)今後の課題


これまで、データがあったので単に集計・グラフ化してみたということでやってきましたが、ここまでデータがそろっていると統計的検定をしたくなります。

なお、私は、公認会計士論文式試験選択科目で(特に数学的に秀でているわけでもないのに)統計学を選択し、見事撃沈し、翌年は素直に経営学を選択した、という経歴があります。

ということで、(数学的理屈はともあれ)Excelを使えば比率の検定とかはしてくれるはずなので、例えば、

・全国 vs 群馬 でその各要素(年代、性別)の比率が統計的な有意差を持っているのか
・県内においても、性別間で陽性者の比率が統計的な有意差を持っているのか

といったことを調べたいな、と思っています。必要なデータは手許にある。ないのは自分の技術と時間だけ。

本日は以上です。ご覧いただきありがとうございました。

この記事が気に入ったらサポートをしてみませんか?