見出し画像

「BADオープンデータ供養寺」誕生秘話

※こちらの記事は、「CivicTech & GovTech ストーリーズ Advent Calendar 2020 - Qiita」の12月12日公開記事でございます🙏

皆様、ようこそいらっしゃいました。BADオープンデータ供養寺住職でございます。
本日は、「BADオープンデータ供養寺」がどのように生まれたのか、その歴史について語らせて頂きます🙏

BADオープンデータ供養寺とは

BADオープンデータ供養寺は、世の中に災厄をもたらすBADなオープンデータが二度とこの世を彷徨わないように「供養(データクレンジング)」して、GOODデータに生まれ変わらせるための場所でございます。

「BADオープンデータ」とは、データ分析やサービス開発等、使おうとした時にすぐに使用可能な形式になっていないオープンデータのことを申します。 こういったデータを使える形に加工するには膨大なコストがかかります。 中にはデータの解釈に支障をきたすような凶悪なものもあり、気付かずに使ってしまうと重大な問題につながるおそれもございます…🙏

しかし、BADデータは誰かを苦しめようと意図して作られた訳ではございません。 作成者は、適切なデータ形式がどのようなものか知らなかった可能性がございます。また、保有していたデータをオープンライセンスで公開して頂いた時点で多大なる貢献です。
そのため、GOODな状態のデータに生まれ変わらせるための「供養」というコンセプトを大切にしております。

オープンデータ活用ビジネスの現場における課題から生まれた企画

私には、住職の他に、医療施設・薬局・介護施設のデータベース販売を手がけているミーカンパニー株式会社データスチュワードという肩書がございます。
この会社について、CDO (Chief Data Officer) を務められている高木氏は次のように表現されています。

スクリーンショット 2020-12-12 16.43.13

病院薬局介護施設など医療系のオープンデータを取引先マスタデータに仕立て直して販売する狂気の会社ミーカンパニー
出典:07_本当にあったコードの話(エンジニア向け)(高木)

狂気の会社
変人しかいない会社だと思われてしまいそうです…🙏

この会社では、国・都道府県・市区町村・保健所等から公開されているオープンデータ開示請求で入手したデータを利用して、医療施設・薬局・介護施設の統合データベースを整備し、製薬会社・医療機器メーカー・コンサルティング企業等に販売しています。

スクリーンショット 2020-12-12 17.49.28

(出典:SCUELデータベース説明資料)

この公的機関で提供されているデータは、とてもそのまま利用できるものになっていないことが多いです。
以下、ほんの一例になりますがご紹介いたします。

・PDFの個票(施設毎の報告フォーマットがそのまま公開された形)しかない
・施設名が入るべき箇所に住所が入っている
・存在しない法人番号が入っている(幻の法人…)
・URLが "hppt" で始まっている(惜しい…)
・所在地情報が古いままになっている(東京市とか、昭和ですか…)
・登録日が "0201年01月09日" (弥生時代ですか…)
・建物の階数が "129.7階" (日本で2番目に高い建物になりますし、0.7階の存在が気になります…)

いくら元データが悪いとはいえ、こういったBADなデータをそのままにしておくと、データベース製品としての品質も下がり、取引先で利用される際もずっと悪影響を受け続けることになります。その結果、企業としての信頼の低下にもつながってしまうのです…🙏

スクリーンショット 2020-12-12 18.16.45

(出典:BADオープンデータ供養寺 〜本当にあったデータの怖い話〜

また、扱っているデータのレコード数は、10万、100万、1,000万という規模であるため、とても人手でクレンジングする訳にはまいりません。複雑なロジックを組み、慎重にエラーデータの検出・変換プログラムを設計し、実装し、誤変換を起こしていないか入念にテストする必要がございます。そのコストがいかに膨大であるか、ここまでお読みくださった方には容易にご想像頂けることでしょう…🙏

このような状況の中、オフィスでのエンジニア同士の会話で
「またこんなひどいデータが見つかった」
「○ねばいいのに」
「葬り去りたい」
「成仏させなくては」
「供養しよう」
という流れになり、
「BADオープンデータ供養寺」
という名前が生まれました。
ちょうど2018年の夏頃、シビックテックの祭典である「Code for Japan Summit」のセッション募集が始まっていた時期だったため、オープンデータ活用における課題を知って頂くとともに、データクレンジングの技術を共有する場として、セッション企画を立ち上げようということになりました。

初お披露目はCode for Japan Summit 2018 in 新潟

2018年に新潟で開催された「Code for Japan Summit 2018」のセッションとして、「BADオープンデータ供養寺」が登場しました。

スクリーンショット 2020-12-12 17.04.41

セッション概要より:

世の中のBADオープンデータが二度とこの世を彷徨わないように、「供養(データクレンジング)」する方法を考える場です。
データの公開に携わる行政職員の方や、データを利活用するエンジニア・データサイエンティスト等の皆さまと、より使いやすく品質の高いオープンデータの公開と加工の仕組みを考えていくために建立されました。
前半はパネリストが、日頃の業務の中で、どのようなBADオープンデータにいかに対処してきたか、実例やクレンジング技術を紹介します。
後半では事前投稿されたBADオープンデータを紹介しながら、オーディエンスの皆さまと一緒に成仏させる方法を考えて行きたいと思います。

大変多くの方々に関心をお寄せ頂き、会場は満席となりました。
その数、同時平行の別会場のセッションオーナーの方々から苦情が寄せられるほどでした…🙏

画像2

話者として、ミーカンパニーのエンジニアの他、公的機関、シビックテック等データ提供者/利用者両方の立場からお話頂き、盛会に終えることができました。

画像3

なお、このセッションでの皆様の資料はこちらのFacebookイベントページにてご覧頂けます。

最多来場者数を記録したCode for Japan Summit 2019 in 幕張

画像8

2019年に千葉県幕張市で開催されたCode for Japan Summi 2019では、「BADオープンデータ供養寺 一周忌」が開催されました。

画像7
話者としては、2018年から引き続きご登壇頂いた方、新たに加わって頂いた方、そしてなぜか遺影風の写真で参加となってしまった方。

画像9

そして圧倒的な存在感を放つ、オープンデータ伝道師ならぬ「オープンデータ宣教師」爆誕。

画像10

しまいには台湾からの参加者の方から西遊記と呼ばれる始末…🙏

と、ネタ的なものばかりご紹介いたしましたが、皆様のお話大変勉強になったとの声も多く寄せて頂きました。
2019年の話者の方々の資料はこちらのFacebookページからご覧頂けます。

また、このサミットではセッションへのチェックイン機能のある公式アプリが開発されていたことから、セッション毎の来場者数のカウントが可能となっておりましたが、なんと約50のセッション中最多来場者数を記録することができました。
この場をお借りして深く御礼申し上げます…🙏

奇跡が起こったCode for Japan Summit 2020

画像11

そして今年、Code for Japan Summit 2020はオンラインでの開催となりました。「BADオープンデータ供養寺 〜本当にあったデータの怖い話〜」として無事セッションを開催することができた訳ですが…なんという酷い画面でしょうか
完全にホラーです。

スクリーンショット 2020-12-12 19.36.17

そして話者の数が多い。住職がダメ元と考えてオープンデータ界の有名人に話者になって頂けないかお声がけしたところ、なんと全員OKを頂いたというのが顛末でございました…🙏

とてもこれでは尺に収まりきらないぞどうする、という中、なんと奇跡が起こりました。

画像13

お分かり頂けただろうか
次のセッション枠が空いていたのです。
前日の夜、Code for Japanの事務局長にお伺いを立ててOKをもらい、スタッフの皆様に可能な範囲で結構ですのでもしお手伝い頂ける方は是非と依頼し、2枠ブチ抜き開催が実現しました。
サポート頂いた配信スタッフの皆様、グラレコ隊の皆様、そして長々とお付き合い頂いた話者の皆様、参拝者の皆様、本当にありがとうございました…🙏

画像14

グラレコも大変素敵にまとめて頂きました。

画像15

こ、怖い

本セッションはYouTubeでもアーカイブ動画をご覧頂けます。

各話者の方々の資料へのリンクはこちらのページにまとめております。

2020年10月、ついに寺建立

画像16

ついに寺が建立されました。
なんという懐かしいビジュアルでしょうか。

一度見たら忘れられない寺にしたい
という住職のトンデモ要望に、優秀な宮大工(※エンジニア)の方々が見事応えてくださいました…🙏

色々な楽しい仕掛けもございますし、BADオープンデータの供養事例のご紹介や供養依頼の受付も行っております。
データの駆け込み寺のような存在として、頼って頂けたら嬉しいです。

なお、BADオープンデータ供養寺建立における技術的な解説は、フロントエンド宮大工@kaizumaki さんによる以下の記事、

及びCivictech1年目宮大工 @Nekoya3 さんによる以下の記事をご覧下さい。

より良いオープンデータをみんなで作って行きましょう

このように面白企画としてBADオープンデータ供養寺をやってきた訳ですが、データを供養する作業自体は決して楽しいものではありません。
早く、その先のデータから付加価値を生み出すことに集中したいと思っています。
ぜひ、より良いオープンデータをみんなで作って行きましょう🙏

スクリーンショット 2020-12-12 20.00.26


この記事が気に入ったらサポートをしてみませんか?