Excel練習(3回目)
■Excel練習課題
最新のCOVID19感染状況について、3密との関連性を確認するための一つの手段として、人口密度との関連性を確認する。
Excel練習(3回目)
■Excel練習課題
最新のCOVID19感染状況について、3密との関連性を確認するための一つの手段として、人口密度との関連性を確認する。
■実施した手順
(1)データの取得
人口密度データを探して、Data>From Webから設定する。(設定文字コード=UTF-8)
https://population.un.org/wpp/Download/Files/1_Indicators%20(Standard)/CSV_FILES/WPP2019_TotalPopulationBySex.csv
(2)データモデルへの追加
上のステップで、Only Create ConnectionとAdd this data to the Data Modelを選択してデータインポート。
(3)クエリに年情報を格納するカラムを追加
練習2回目で作成したクエリ(サンプルExcelであれば、qryLatestRecord)にPower Query Editorの
Add Column>Column from ExamplesでYear情報を格納するカラムを追加
((2)でインポートしたデータと紐づけ可能にするため)
(4)クエリのマージ
練習2回目で作成したクエリ(サンプルExcelであれば、qryLatestRecord)に(2)でインポートしたクエリをマージ
国名と(3)で追加した年情報でリンクしてマージ
(5)全人口に対する割合
実績との比較だと、あまり参考にならないと思い、感染者/死亡者のそれぞれで、総人口との割合を示すカラムを追加。
また、アジア地域だと、感染者数が多いわけではないので、まずは、ヨーロッパ地域のデータで比較してみることにした。
(6)散布図(X軸:人口密度、Y軸:感染率/総人口)のグラフ作成
国により、極端に人口密度が高いところがあるので、人口密度(X軸)の最大値は250(人)と設定。
例外データを取り除いて近似式を引くことはしなかったが、とりあえず見た目では、感染者数と人口密度の相関関係は、若干あるかもしれない、と思った。
感染者数がどれだけ正確な数値かが分からないので、関係性をこれ以上追及しても、正確なところは分からないかもしれないと思った。
■備考
いくつかデータを利用してExcelのトレーニングをしてみると、Excelというよりも、次の事項が面倒に感じた。
・データをいかに探してくるか
・見つけた複数のデータを、どのように紐づけて統合的に評価できるようにするか
データ収集のスタンダードがあれば、すべては解決して、だれでも簡単にデータ解析できるような気がする。
簡単にそれができないから、それで仕事が発生する部分もあるのでしょうが。