見出し画像

なぜ住所データのクレンジングが必要なのか、その1

そもそもデータクレンジングとは

データベースにおける様々なデータを整理し、活用に支障が起きないよう最適化すること。入力ミスや間違った配置、欠損値などの不正確なデータや無関係なデータなどを特定し、修正を施すこと”

以前自宅に、ある百貨店から全く同じお中元カタログが2冊届いた。過去に百貨店でお中元を申し込んだ際に、わたしが登録した住所と、その後家族が申し込んで登録した住所情報が微妙に違っていたようでした。目視で確認すると同姓同名、住所も表記こそ違えど、明らかに同一住所。そんなとき職業柄どうしても思わずにはいられない。

なぜクレンジング(あるいは名寄せ)をしなかったのだ、と。

企業には企業のルールが当然があって、重複だってわかってるよ!でも顧客ファーストで念には念を入れてあえて2冊送ったんだよ!かもしれません。たかが1冊、されど1冊。この重複があったせいで某百貨店は無駄なコストを払いました。そして当然この重複が我が家だけとは限らず、その無駄コストがこの先ずっと続くことを考えると、データクレンジングの重要性をちょっとだけ感じることができるのではないでしょうか。

まぁ、こんなかんじで何らかの個人データベースがあるとして、氏名・電話番号・メールアドレスがあれば最近は事足りることが多いかもしれません。
しかし、もう一歩踏み込んで個人データを活用するなら、欠かせないのが住所情報です。電話番号やメールアドレスはコンピュータにとって識別が容易ですが、住所情報は取り扱いが非常に厄介です。とくに日本の住所はほんとに地獄。

日本の住所の地獄ぶり

たとえば、、、
\ あつまれ!さいたま市市役所の住所たち /
① 埼玉県浦和市常盤6丁目4番4号
② 埼玉県さいたま市常盤6丁目4番4号
③ 埼玉県さいたま市浦和区常盤6丁目4番4号
④ 埼玉県さいたま市浦和区常盤六丁目四番四号
⑤ 埼玉県さいたま市浦和区常盤6丁目4-4
⑥ 埼玉県さいたま市浦和区常盤6-4-4
⑦ さいたま市浦和区常盤6-4-4
⑧ さいたま市浦和区常盤6丁目4の4
⑨ 浦和区常盤6-4-4
⑩ 浦和区常盤六ノ四ノ四

ね?どうです?①~⑩全部同じ場所を指示しているのですよ。
(まさか、埼玉県民はこれを一瞬で―――――――)
もういろんなところで言われてることだけど、ナチュラルに日本語話者であることをもう少し誇ってもいいのかもしれない

で、正解はこちら
さいたま市浦和区常盤六丁目4番4号(まさかの埼玉県はずし)

https://www.city.saitama.lg.jp/006/012/001/006/p001690.html

④が惜しかったけど全部不正解!でも間違っていないという摩訶不思議。
この表記揺れが住所の厄介さの原因です。ざっくり、よくある揺れのパターンはこんなかんじ。

(1) 都道府県名の省略。
(2) 旧住所名の放置。
(3) 字(あざ)表記の省略。
(4) 小字名の省略、通称名の記述。
(5) 漢数字・算用数字の混在。
(6) 丁目・地番表記の揺れ。
(7) 建物名表記の揺れ。
(8) 京都通り名などの特殊な表記。

語りつくせない日本の住所の地獄ぶりについては一旦ここまで。もっと詳しく地獄を知りたい方にはこちらの方のnoteがおすすめ。当時大バズリしたので履修済みだという方もたくさんいらっしゃるのではないでしょうか。今読んでも本当に愉快、そう、読むだけなら。同業ならあかべこ涙目状態になる内容です。

一方、電話番号とメールアドレス
電話番号は数字とハイフン、メールアドレスはアスキーコード範囲内の文字列で構成されており、電話番号は市外・市内局番で、メールアドレスは@以降がドメイン名で体系化、すなわちコード化されているため、コンピュータの識別が容易に行えます。

ならば住所もコード化してしまえばこれらの問題は解決するはず!
表題の「なぜ住所データのクレンジングが必要なのか」の問いの答えは、すばり

\ コード化させれば扱いが便利になるから /

ということになります。
「住所をコード化する」とはなにか、興味を持っていただけたら次のnoteをご覧ください。

ところで、筆者の勤務先です