見出し画像

「データ整備ってなに?」-マニュアルを使ってデータ整備に挑戦してみた-

 みなさんこんにちは!都では、デジタルの力で東京のポテンシャルを引き出し、都民が質の高い生活を送ることができる「スマート東京」を実現するため、行政や民間の持つデータの集約・連携を可能にする東京データプラットフォーム(TDPF)構築に向けた取組を進めています。
 本記事では、プラットフォームに流れる、機械判読性の高い「利活用しやすいデータ」を、持続的に供給するためのデータ整備手法を検討し、モデル化する「データ整備事業」をご紹介します。

1.解決したい課題

 昨年度、都内62区市町村が保有するデータの整備状況についてアンケート調査をしました。

 アンケートの結果、データ整備の重要性は理解しているけれど実際どのようにして整備するのかわからない、どんなデータに需要があるか感じにくいなどの意見が多くあり、なかなか着手が進まない状況が浮かび上がりました。

 そこで、具体的に何をすればいいか分からず消極的になってしまう問題を少しでも解決していくために「利活用しやすいデータ」にするための整備マニュアルの作成に取り組んでいます。
 まずは、このマニュアルを使ってみなさんにデータ整備について理解を深めてもらうことが目標です。

2.マニュアルを使ってデータ整備に挑戦してみた。

 実際にデータ整備するときの手順がわからないという声に応えるためにTDPFチームでは「利活用しやすいデータ」を作成、変換する作業プロセスを踏まえた整備手順をマニュアル化しました。
データ整備マニュアル(A4カラー119ページ、32MB)

 このマニュアルでは、データが業務システム等で生成されてから活用するまでの流れを表にまとめ、それ以外のデータは形式別に説明することで、データ変換の実作業をわかりやすく図解しました。作業環境は一般的に利用されているMicrosoft Excelを想定しています。またデータとして取り込めない紙媒体やPDFに対応できるようにOCR(光学的文字認識)というスキャナやデジタルカメラによって読み取り、デジタルの文字コードに変換する技術を使った手順も紹介しています。
 下の図は、整備する上での基本ルールです。

まずは”エクセルの乱れは心の乱れ”のつもりで身近なところから

 実際に、データ整備未経験の職員がExcelのPower Query(※)を使いデータ整備に挑戦してみました。
 ※Power Queryとは、Microsoft Excel の2016年以降のバージョンに搭載されている機能です。簡単に外部データとの連携や、連携してからのデータの加工(列の追加や抽出等)を自動化してくれます。
 今回は試しに新宿区がオープンデータ化している人口統計を使用しました。
(参照:https://www.city.shinjuku.lg.jp/kusei/file02_00025.html

 データの読み込みはスムーズにできましたが、次にどうすればいいか迷ってしまいました。その時点でマニュアルにあった事前準備というのが必要なのかと思い至りました。作業以前に、最終的にどんな内容のデータにしたいのか、どの情報が欲しいのか作業する側が分かってないといけないと思いました。実際にデータ整備を始める前には、マニュアルの「データを準備する前に準備する」を参照してください。
 初手で行き詰ったので単純にPower Queryでどんなことができるのかにフォーカスしました。
 ダウンロードしたデータは、列が3つに折り返しているため、一列に並び変えてみます。町丁名を最初に並べてみようとしましたが数字が取り残されてしまって実数がバラバラになってしまいました。

 一旦元に戻してから再度マニュアルの該当しそうな作業項目を確認しながら繰り返し試しました。いろいろ試して気が付きましたが間違えても簡単に元に戻せて、元データに直接反映されないので気兼ねなく試せました。
 最終的にマニュアル内で記載されたところどころの作業を抜粋しながら行った結果、「町丁名」から「計」までの4項目を選択して統合を3回繰り返し、ピポットテーブルの削除、不要な項目の削除など参照してなんとかきれいに一列に並びました。

 マニュアルが図式で作業内容が記載されているので自分のやりたい作業内容に近い部分を探しやすかったです。初挑戦でやりたい内容と沿っているか実際に変換してみないとわからない部分に手間取りましたが、図式通りに進めればひとつひとつの作業自体はスムーズにできました。使い慣れれば列の入れ替えや文字変換が簡単にできるので日常業務に取り入れられたらかなり便利だと思います。
 難しそうに見えるマニュアルですが、そこで諦めずデータ整備に触るところから始めてみて欲しいです。最初の一歩を踏み出す助けとしてぜひマニュアルを活用して頂けたら嬉しいです!
 
今回の経験を踏まえてより実用的にわかりやすくなるように今後もマニュアルの改訂を続けていきます。マニュアルに対して疑問点や改善点などお気づきの点がありましたらデジタルサービス局へご連絡をお願い致します。
 データ整備マニュアルを含む昨年度のデータ整備事業の成果はこちらでご 確認いただけます。

成果報告会 ~行政データ、キレイにしてみました~

3.明るいデータ社会に向けて

 2022年度は民間事業者の保有データを対象にしたデータ整備の検討、整備パターンの拡充、実データの変換および整備作業を推進していきます。その結果を「データ整備マニュアル」に反映していく予定です。

 また、データ整備をTDPFの事業としてデータ整備自体に慣れてもらえるような取組を考えていきます。活動内容はホームページで随時更新し、成果報告会などでの発信も検討しています。
 この記事からデータ整備に興味を持って頂けたら嬉しいです。みなさんと一緒にTDPFチームは、今後も「利活用しやすいデータ」を増やせるように活動を続けます。    

このページに関する問い合わせ先


デジタルサービス局 デジタルサービス推進部 デジタルサービス推進課
データ利活用担当まで
電話番号:03-5320-7622
メールアドレス:S1100301@section.metro.tokyo.jp