データ開示側に求めたいこと

新型コロナウイルス関係で、データを見る機会が増えました。データ開示側が真摯に、そして共有の情報としてデータを扱おうとしているか。意外に大事な視点だと思います。今回は1つ例をあげて、これを推測してみたいと思います。

データ開示側がきちんとデータを開示しているか、それを知るためのポイントがあります。「データ開示側がデータを大事にしているか 」でも書いたとおり、

   (1) 合理的なフォーマットで
   (2) 正確な数字が定義と出展と共に
   (3) 漏れなく
   (4) 定期的に
   (5) 常に同じ場所で  公開されているか

この5条件は納得できると思います。(1) は、データを他の人も簡単に処理できるようになっているか、という意味です。データの信頼性は、多くの人に検証されてこそ得られるものです。(見る人が見る、解析すると、おかしな点も見つかったりします。2018年末の統計不正問題発覚の経緯もそれでした。)


今日、この5点を改めて取り上げたのは、

内閣府のモニタリング調査結果 https://corona.go.jp/monitoring/

を見たからです。かなりのレベルです。

まず、結果が画像で張り付けられています。(1) が成り立たない可能性がありますが、結果なので一応許容しましょう。そしてデータが開示されている気配が・・・

画像2

という部分の「こちら」で2つのcsvファイルがダウンロードできます。しかしこのcsvファイル、集計結果でした。複数の地点で複数回モニタリング調査をしているのですが、期間ごとに年代を集計したものと、期間ごとに場所を集計したもの、その2つのデータでした。本来なら、期間ごと、年代ごと、場所ごと、という多次元情報として開示すべきものです。これを今後加工して、検証できる情報ではないのです。

さらに

画像3


画像2

の2つの画像データに対応するcsvは開示されていません。


  元データを開示してください!データは、みんなのものです!


以上、データを開示しているように見せながら、データを開示する意図が全くみられない事例と言えるでしょう。

5つのポイントを確認すれば、データだけでなく一般的な情報も、開示に積極的かがある程度推測できると思います。