
久々のデータ供養
最近、Code for YOKOHAMAの活動で、横浜市財政局の公共建築物施設データを活用したEBPMチックな案件を検討しておりまして、その過程で使えそうなデータを洗いだす作業をしています。
その中のひとつとしてターゲットになったデータが、なかなかのレベルのBADオープンデータだったので、BADオープンデータ供養寺に事例として奉納するためのネタとして書いておこうかなと思います。
対象になったのは、横浜市オープンデータポータルに公開されている「令和2年度市立学校現況」データです。
中にはこんな感じでデータが並んでいるのですが、財政局さんのデータと違い、詳しい記述が全くないのでどんなデータなのかよくわからず、仕方ないので小学校と中学校のデータをとりあえずダウンロード。
小学校のZIPを解凍してみるとこんな感じでデータが並んでいました。(もうこの時点で嫌な予感しかいたしませんww)
財政局さんの公共建築物施設データは割合にキレイな形式で、測地系が違いつつもそれぞれの公共建築物の位置座標もきちんとあり、そのままGISやTableauに展開可能だったので、そこに個々の市立学校のデータを付加していきたいと思っていました。
が!!開いてみたデータを見て愕然とする。
このままでは到底GISデータに付加することなど不可能ではないか…。
ということで、泣く泣くクレンジング作業に突入。
行った手順は以下のとおり。
お焚き上げ手順
まずファイルをひとつひとつ開いてみて、データの中身を調べます。
結果的にフォルダに入っていた8つのデータのうち、使いたいファイルは以下の3つでした。
①【P7,P9,P11,P13,P15,P17,P19,P21】2[小学校]-(6) 学校別学級数.xls
②【P8,P10,P12,P14,P16,P18,P20,P22】2[小学校]-(6) 学校別児童・本務教員数.xls
③【P23~P28】2[小学校]-(7) 学校別個別支援学級・児童数.xls
①と②は別ファイルかと思っていましたが、よくよく見ると奇数ページと偶数ページに分かれただけのデータでしたww(印刷ページをそのままデータとして公開しているのでこうなったらしい)
最初に気が付けばデータを合体させてからクレンジングしたんですが、全く気が付かなかったのでそれぞれ別のデータとしてクレンジングしてしまいました…。
チッキショーーーー!(小〇太夫風に)
さて、ということで①のデータをクレンジングした手順はこんな感じ。
1)9シートに分かれたデータ(もうすでに意味がわからないw)を一つのシートに寄せる。(Tableau使ったらもうちょっと効率化できたかもしれないですが、Excelではひたすらコピペするしかない)
2)シート全体を選択してセル結合を解除
3)A列に区名を補完。(一番上に入っている区名をコピーしていく)
この時には以下のTipsを利用するのがオススメ♡
4)B列の[折り返して全体を表示する]を解除し、データを左寄せにする(見づらいデータがある場合はフォントサイズを調整)
5)学校名を正規化する。B列の後ろに行を挿入し、以下の式を入力。
=”横浜市立”&B7&”小学校”
下方向にコピーしていく。
コピーし終わったら列全体を選択して[コピー]→[形式を選択して貼り付け]→値のみをペースト
【注意】分校の場合は後ろに「小学校」がつかないので削除する。
6)項目名の正規化
2~3行に項目名が分かれているので、1行に収まるように編集。このデータの場合、「学級数:総計」「学級数:単式_1年」みたいな感じ
7)データを並べ替える
学校名が入っている列を範囲選択→[並べ替えとフィルター]→[ユーザー設定の並べ替え]を選択。
[最優先されるキー]をA列、[次に優先されるキー]にB列を指定
8)学校名が入った列が上に集まるので、下の方にある余計な列を削除
という手順を踏んでクレンジングした後のデータはこんな感じ。
②のデータもほぼ同じ手順でお焚き上げしていき、①と②のデータクレンジングが終わった時点で約40分経過。
さらに中学校データも似たような手順でいけるかと思ったら、久々にこいつに出会ってしまいました…。
項目名を図形テキストで貼るなぁぁぁぁ!!!
使ってほしいなら使ってもらえるデータを出そう
データ活用を行う上でデータクレンジングコストが高いデータというのは、すなわち「使ってもらえないデータ」であることと同義だと思っている私にとって、これをオープンデータと称して出されていることも耐え難いですし、そもそもオープンデータを推進すべき担当部署(横浜市官民データ活用推進計画によれば「オープンデータデスク」らしい)がこれを看過していることも意味不明だと感じます。
オープンデータの黎明期においては「とりあえず出してくれるだけで偉い」みたいな風潮があったのは確かなのですが、官民データ活用推進基本法が施行されてから早3年ほど経過しているわけなので、そろそろこういう恥ずかしいデータはお焚き上げしてほしいなと思った次第でした…。
一応フォロー
市立学校現況データは煮ても焼いても状態でしたが、もちろん全部が全部こういうデータってわけでは当然ないですから誤解なきように。
先にお出しした財政局さんのデータや、特に経済局のこの「テイクアウト&デリバリー」データは最高に素晴らしいです。(なぜならCode for YOKOHAMAメンバーがアドバイスしているからw)
このデータはCode for YOKOHAMAの「Yokohama to go」というサイトや他の色々なサイトに活用されており、正しい形式でデータを出せば、民間でも色々活用してもらえるというオープンデータのお手本みたいなデータです。
ちなみに標準的なバス情報フォーマット(GTFS)によるデータもあるんですよー。道路局エライ!!
涙をちょちょぎらせながらデータクレンジングをやりつつ、デジタルトランスフォーメーションとかスマートシティとか大きな話をする前に、こういう小さなことをきちんと積み上げないといかんよなとつくづく思う今日この頃でした…。