新型コロナ - 世界のデータ解析(3)
交差免疫の現象をデータで見れないかと以前から色々見ているが、owidのデータには continent(大陸) というcolumnがあるので sklearnのKNNで分類できるかやってみた。
結論:難しそう。
[1] owidの全て入ったデータを downloadして読む。GitHubのraw dataはサイズが大きいので表示されない。必要の無いデータを消して、groupにした各国の最後(tail)の entryを読む。これが累積値なので。NaNのデータがあるrowをdropし、indexをresetする。
[2] stringの'continent'を数字にすると、後で何かと便利。
[3] correlationを確認。
[4] scatter plotを作ってみる。
[5] logにしたほうがみやすいのでlogにしてみる。
[6] 横軸人口密度、縦軸感染者数/1M
[7] 横軸人口密度、縦軸死亡者数/1M
分類は厳しそうだが、とりあえずどれくらいできるのか試してみる。
[8] logにした時 -infになるデータがあったので取り除く。まずinfをNaNにしてdropする。
[9] [10] 前々回と同じようにKNNで分類してみる。分類が6つあるとあまりよくわからない。
[11] 前回と同じようにaccuracyをcheckする。低いが、expected。
[12] [13] 感染者数でもcheck。accuracyはもうちょっと低い。
この記事が気に入ったらサポートをしてみませんか?