見出し画像

新型コロナ - 世界のデータ解析(3)

交差免疫の現象をデータで見れないかと以前から色々見ているが、owidのデータには continent(大陸) というcolumnがあるので sklearnのKNNで分類できるかやってみた。

結論:難しそう。 

[1] owidの全て入ったデータを downloadして読む。GitHubのraw dataはサイズが大きいので表示されない。必要の無いデータを消して、groupにした各国の最後(tail)の entryを読む。これが累積値なので。NaNのデータがあるrowをdropし、indexをresetする。

画像1

[2] stringの'continent'を数字にすると、後で何かと便利。

画像3

[3] correlationを確認。

画像5

[4] scatter plotを作ってみる。
[5] logにしたほうがみやすいのでlogにしてみる。 

画像6

[6] 横軸人口密度、縦軸感染者数/1M
[7] 横軸人口密度、縦軸死亡者数/1M
分類は厳しそうだが、とりあえずどれくらいできるのか試してみる。

画像7

[8] logにした時 -infになるデータがあったので取り除く。まずinfをNaNにしてdropする。

画像8

[9] [10] 前々回と同じようにKNNで分類してみる。分類が6つあるとあまりよくわからない。

画像10

画像11

[11] 前回と同じようにaccuracyをcheckする。低いが、expected。

画像12

[12] [13] 感染者数でもcheck。accuracyはもうちょっと低い。

画像13

画像14


この記事が気に入ったらサポートをしてみませんか?