見出し画像

なぜ住所データのクレンジングが必要なのか、その2

前回「なぜ住所データのクレンジングが必要なのか」の答えを「コード化させれば扱いが便利になるから」と書きました。


本当は「なぜ住所データのクレンジング弊社が必要なのか」がいい。
そして弊社は答える

「めちゃくちゃめんどくさいから―――――――」

余談ですが、昔々、上司に言われた「めんどくさいから仕事になるのよ~」に何度自分を奮い立たせたことか

話を最初に戻して「なぜ住所データのクレンジングが必要なのか」をつらつら書くので、へー、ふーん、と思いながら読んでいただけると幸いです。

郵便局のサイト、お世話になってます

さて、住所がコード化されたものといえば郵便番号。
日本の郵便番号は1968年に始まり、配達局の区分として5桁で管理されていたものが1998年に7桁へ。それにより町域(町・大字)までコードで示すことができるようになりました。ただし郵便番号には欠点もあります。

<欠点その1>
7桁コードだけでは都道府県市町村などのカテゴリ分けが難しい

これは市町村コードの併用で補うことができます。
日本郵便公式サイトから郵便番号データをダウンロードすると、1項目めに「全国地方公共団体コード」がセットされています。

https://www.post.japanpost.jp/zipcode/dl/readme.html

旧自治省(現総務省)が作った5桁のコード体系で、頭2桁が都道府県(北海道が「01」、沖縄県が「47」)、残り3桁で市区町村を表しています。市町村コードと郵便番号があれば、ざっとした地域別のデータを抽出したり並べ替えたりすることが可能となります。

<欠点その2>
それ以上細かい住所(丁目・小字、そして地番)をコードで示せない

これは、カスタマバーコードの利用で解決します。

https://www.post.japanpost.jp/zipcode/zipmanual/p10.html

送付先情報をすべてバーコードデータにしておくことで料金が割引される仕組みです。コード内の住所情報は「郵便番号」+「丁目・地番」+「建物の号数」で構成されます
たとえば弊社の住所でいうとこんなかんじ
「〒151-0051 東京都渋谷区千駄ヶ谷5丁目29-11 ナカニシビル10階」  
    ⇩
「151-00515-29-11-10」


ルールの詳細は以下参照

上記のコード化を実施しておけば、表記不統一をいちいち直すことなく分類から重複チェックまで住所データの有効活用の道が開けます。よかったですね。

さて、フリーで使えるコードでできるのはここまでです。
(この時点でもうほとんどの人は離脱しているはず…🥺)
郵便番号は配達局の都合で配列されたコードであって、必ずしもデータクレンジングで利用するために最適化された体系で作られてはいません。
より精度高く維持し続けるためには、有料マスタの利用が欠かせません。

しかしコード化はあくまでも手段であり、目的に応じて揃えるものとやるべきことは変わってきます。

先にコード化という手段・方法を考えることになりましたが、本来はクレンジングの目的とメリット、つまりどのように「便利になる」のか整理する必要があります。

データクレンジングのメリットと目的

コード化自体は手段に過ぎません。住所データクレンジングの目的はその先にあります。

<住所情報が文字列のままで不便な点と解決策>
・ソートをかけても期待した並びにならない
▶市町村コードと郵便番号とでざっと対応可能、カスタマバーコードがあればなおよし
・同じ住所(世帯)の抽出が容易ではない
▶カスタマバーコードと市町村コードを併用すればある程度の精度が期待
・旧住所の検出と修正が難しい
・間違った住所情報の判別と修正が難しい
▶有償の住所マスタが必要だが、マスタとの照合で対応・維持が概ね可能

不便が解消されると次の展開が見えてきます。
 ↓
 ↓

<不便を解消した上での展望>
・ 体系的なコードと結び付けてエリアマーケティングへの活用
・ コードを正確な識別子として利用することで名寄せの効率化
・ 旧住所の自動変換体制
・ 送付物の不着等による損失の軽減

こうした展望が期待できるのが住所データのクレンジングです。
目的が明確になれば、データクレンジングにどこまでコストをかけられるかが自ずと見えてくるはずです。

ところで、これらのクレンジングを我々プロは目視で一つ一つ手作業している―――――はずもなく、プログラムで対応しています。

プログラムで行う住所データのクレンジングでは、住所表記の揺れを吸収した上で住所マスタと照合させます。
住所表記の揺れとは、最初の「なぜ住所データをクレンジングする必要があるのか」で紹介したパターン

(1) 都道府県名の省略。
(2) 旧住所名の放置。
(3) 字(あざ)表記の省略。
(4) 小字名の省略、通称名の記述。
(5) 漢数字・算用数字の混在。
(6) 丁目・地番表記の揺れ。
(7) 建物名表記の揺れ。
(8) 京都通り名などの特殊な表記。

日本の住所の地獄ぶり再び

・都道府県さえ省略していきなり「南区〇〇町」って書く人いるけど南区って全国に13市あるよ!
・市町村合併で消えた地名、ずっと使ってる人いるよ!だからって一律変換したらこっちが死っ…てなる
・「字(あざ)」あってもなくても支障ないからって一律で消したらやっぱりこっちが死っ…!
・その地域でのみ通用する通称名を使う人がいるよ(なんで?)

こうした判断については、正確なマスタと照合させることでしか合理的な対応はできません。もちろんプログラムにも限界はあります。根本的に間違っていたり、足りない情報を正しくすることはできません。しかし、データがどのレベルで間違っているかを示すことは可能であり、そこで初めて人間の判断(弊社😉)によって解決する段階となる訳です。

弊社😉