見出し画像

ハッカソンで感じたオープンデータの改善点

先日、東京都の都知事杯オープンデータハッカソンに参加しました。

最優秀はとれませんでしたが、約40組のなかから5組だけが進出できるFinal Stageに選ばれ、プレゼンしました。つくったサービスは「入りやすい保育園マップ」です。

この記事ではサービスを紹介したいわけではなく、より多くのデータがより使いやすい形で公開されることを願って、開発しながらオープンデータに対して感じたことを書きます。(東京都オープンデータカタログサイトにはリクエストボックスがあるので、そちらでもこの記事を送りました)

1. より多くのデータをCSVで公開してほしい

入りやすい保育園マップは「保育園の入所者最低指数」を参考に入りやすさを表示しています。残念ながら、このデータがCSVとしてオープンデータカタログサイトに載っているのは港区のみでした・・・。

※保活をしていると、都内であれば自治体のWebサイトで公開されていることが多かったのですが、だいたいPDFでした。

2. もっというとAPI公開してほしい

CSVだと結局自分たちが使うデータにあわせて、データを整形するか、データをとりこむスクリプトをがんばって作り込む必要があります。

APIが公開されていてスキーマもあり、GraphQLなんかでほしいフィールドだけとれたら最高だなあと思いました。API公開するのは運用コストもあるし難しそうではあるんですが。

3. APIまでいかなくてもスキーマ(型)はほしい

CSVだとすべてが文字列になってしまうので、プログラムから扱いづらいです。そのデータが文字列なのか、数値、列挙型、あるいは独自の型なのか、optionalなのかなど、型情報がわかるとうれしいです。

特に、入所者最低指数は数値と文字列が入り混じっていて大変でした。

・40
・22以下
・非公開
・-
・空文字

実際のデータのバリエーション

指数なので数値かと思いきや、「22以下」とまるめられて文字列になっていたり、ハイフンや空文字のようにどういう意味かデータを見ただけではわからないものもあります。

複雑なデータに関してはドキュメントとしての型情報がほしいです。

4. 過去のデータもアーカイブしてほしい

こちらをみると、入所者最低指数のデータは平成31年と令和2年の2つがあるように見えます。しかし中身をみるとどちらも令和3年のものでした・・・。

過去のデータがあれば、それをもとに入りやすさの情報を充実させることができたので、残念でした。最新の情報が載っていたことはよかったのですが。

おわりに

いろいろ課題があるとは思いますが、ハッカソンが開催されて、データを提供する側と利用する側の相互理解が進んだのはとてもよかったと感じています!

推測ですが、いまはオープンデータとして公開するためにいちいち手作業が発生していそうだと感じました。普通に人向けにデータを公開すれば、自動的にプログラムから扱いやすいオープンデータとしても公開されるような仕組みが整うといいなと思います(保育園に関してはデータ自体はWebサイトやPDFで出ているので)。そういうCMS(NotionとかAirtableが近いんだろうか)やスクリプトがあるとよさそうです。

この記事が気に入ったらサポートをしてみませんか?