見出し画像

新型コロナ - 都道府県別データ解析(3)

新型コロナの都道府県別データを解析し始めて今回で投稿が3回目なので(3)とする。

1. Data

前回前々回のデータをmergeした。多分、pythonでできると思うが元をgoogle spread sheetで作っていたので、columnごとcut&pasteして作った。以下 data/covid-19_0624.csv 。

,,,,,,,,(/km2),(/10k),(degC),(%),(yen/person/year)
Prefecture,Positive,PCRtested,Hospital,Severe,Discharge,Death,Confirming,PopDensity,PopTotal,Temperature,Humidity,Natto
Hokkaido,1200,19481,83,8,1020,97,0,67.4,529,10,69,1553
Aomori,27,950,0,0,26,1,0,130.9,126,11,75,1783
Iwate,0,888,0,0,0,0,0,81.2,124,11,76,2146
Miyagi,90,3534,2,0,87,1,0,318,232,14,72,1915
Akita,16,985,0,0,16,0,0,84.3,98,12,75,1922
Yamagata,69,2509,1,1,68,0,0,116.9,109,13,75,1780
Fukushima,82,6328,2,0,80,0,0,135.2,186,14,70,2137
Ibaraki,170,5192,5,0,155,10,0,471.8,288,15,72,2146
Tochigi,66,6407,1,0,65,0,0,303.7,195,15,71,1888
Gumma,152,4718,3,0,130,19,0,306.8,195,16,62,2248
Saitama,1063,32115,52,4,946,65,0,1930.1,733,16,63,1679
Chiba,933,17416,23,2,865,45,0,1212.8,626,17,67,1773
Tokyo,5895,71904,355,20,5215,325,0,6300,1382,17,70,1458
Kanagawa,1438,12202,58,12,1283,94,3,3798.2,918,17,68,1422
Niigata,84,4815,2,0,81,0,1,178.5,225,14,75,1577
Toyama,227,3859,0,0,205,22,0,247.2,105,15,78,1484
Ishikawa,300,2879,24,2,249,27,0,273,114,16,69,1316
Fukui,122,3280,0,0,114,8,0,184.7,77,15,77,1424
Yamanashi,72,5401,0,0,71,1,0,183,82,16,60,1491
Nagano,77,3166,2,0,75,0,0,152.1,206,13,74,1872
Gifu,156,4926,5,1,144,7,0,188,200,17,64,1210
Shizuoka,80,7108,4,0,75,1,0,470.5,366,18,67,1534
Aichi,523,12180,9,0,474,34,6,1457,754,17,62,1296
Mie,46,2798,1,0,44,1,0,310.2,179,17,63,1421
Shiga,101,2270,2,1,98,1,0,351.5,141,16,75,1317
Kyoto,365,9722,5,0,342,18,0,561.8,259,17,65,1349
Osaka,1809,38259,36,5,1687,86,0,4625.5,881,17,65,964
Hyogo,703,14176,7,0,653,43,0,652.8,548,17,67,1277
Nara,92,3760,0,0,90,2,0,362.8,134,16,70,1381
Wakayama,64,3918,1,0,60,3,0,197.9,94,17,68,965
Tottori,3,1461,0,0,3,0,0,159.7,56,16,74,1044
Shimane,24,1225,1,0,23,0,0,101.4,68,16,76,1324
Okayama,26,1882,1,0,25,0,0,266.8,190,16,71,1205
Hiroshima,168,7683,0,0,165,3,0,332.2,282,17,62,1209
Yamaguchi,37,2160,0,0,37,0,0,224.1,137,16,76,1043
Tokushima,5,851,0,0,4,1,0,177.5,74,17,71,1091
Kagawa,28,2570,0,0,28,0,0,512.6,96,17,69,941
Ehime,82,2578,3,0,75,4,0,238.2,135,17,68,1218
Kochi,74,1943,0,0,71,3,0,99.4,71,17,72,845
Fukuoka,841,15746,22,2,786,33,0,1024.2,511,18,69,1477
Saga,47,1603,0,0,47,0,0,335.6,82,17,71,1443
Nagasaki,17,3152,0,0,16,1,0,324.6,134,18,75,1396
Kumamoto,49,4203,1,0,45,3,0,237.1,176,18,72,1570
Oita,60,4691,0,0,59,1,0,180.4,114,17,72,1666
Miyazaki,17,1536,0,0,17,0,0,139.7,108,18,77,1265
Kagoshima,11,2494,1,0,10,0,0,175.7,161,19,73,1469
Okinawa,142,3003,0,0,139,7,0,634.8,145,24,74,970

2. Program

[1] いつものように必要なmoduleをlibraryから読み込む。必要ないmoduleも読んでますね、seabornとか。
[2] 患者数などの人数のデータをそのままplotすると都道府県の人口の差のバイアスが入ってしまうので、人口で割る。その後printで必ず値を確認すること。

画像2

[3] plotlyでscatter plotを作る。以下は気温vs陽性率。update_layoutでlegendに都道府県名を全て書き出せるようにした。温度の単位の書き方にも注目。

画像3

[4] で同様に湿度もplotしてみる。(上と基本同じなのでprogramは載せない。)
[5] 横軸にPCR検査率、縦軸に陽性率でscatter円の大きさを都道府県の人口としてみる。
[6] 次に円の大きさを人口密度としてみる。ここでupdate_xaxesとupdate_yaxesに注意。各軸の幅を[5]と[6]で固定している。次のいくつかのplotを比較するため。

画像5

画像5

[7][8] と上二つと同様に軸の大きさを固定して円の大きさと(とtitle)outputの*pngの名前だけを変更している。

[9] ここでは、[5]から[8]で作られた画像ファイルを集め、animation gifにしている。pillowはcondaでinstallすみ。

画像6

3. Analysis

Data tells a Story.
ちゃんと読み取らないといけません。plot作って終わりではありません。

気温と陽性率の関係 : 左の気温が低い紫の点は北海道。人口密度は低い(円が小さい)が陽性率は高い。クラスタのせい?右のピンクは沖縄。

画像7

湿度と陽性率の関係:湿度が低い方が陽性率が高そうに見えるが、人口密度も高い。この湿度のデータは一年の平均であることに注意。

画像8

animated gif :人口→人口密度→PCRテスト率→納豆消費率と進むにつれて下の方が重く見える。これは、納豆の効果を表している? データ量が少ないので、全て統計エラー内だと思う。

画像1

4. Summary 

6月24日までのcovid-19の都道府県別検査陽性者のデータを、気温・湿度・納豆消費率でとてもざっくり解析してみた。ここでは、データ量が少ないので、〜のような傾向があるかも??レベルの結論しか出ない。
(注意:本当はここで統計エラーを計算すべき。「データ量が少ない」と言う裏づけを示さないといけない。)

気温・湿度は世界のデータを使って統計をあげようとしても、実際の変数は気圧・風量なども含み多く難しいと思う。実験室内のコントロールされた環境で、Rtを求めるようなデータを待つ方が良い。

納豆は、vitamin Kのオランダでの研究結果を待つ方が良い。



この記事が気に入ったらサポートをしてみませんか?