基本4情報での名寄せは難しい
先日は住所の件でお楽しみでしたね。
私も楽しくなってしょうもないツイートをしたところ、@masanorkさんから有用な情報をいただいてしまいました。
このとき、私はごく簡単な「名寄せの難しさ」の社内研修資料を作っている最中だったのですが、この情報が大変参考になりました。
一方、私だけが得をしているのがなんとなくムズムズしてきたので、ここにアウトプットしてスッキリしようと思います。
なお、住所については話題の記事で十分すぎると思いますので、この記事では残りの3情報である「氏名」「生年月日」「性別」についてまとめていきます。
はじめに
このnoteはタイトルのとおり「基本4情報での正確な名寄せは無理ゲー」ということを伝えるために書きます。網羅性や厳密性はありませんのでご容赦ください。
私は名寄せの有識者という訳ではなく、むしろ素人側です。勉強しながら書いていますが誤りがあったらごめんなさい。コメントでツッコミや補完をいただけると嬉しいです。
そもそも名寄せとは
超ざっくりですが、ここでは「複数のデータ群から、同一人物のデータを紐づける」処理のことを言います。
これが正確にできないと、例えば収めたはずの年金が無かったことにされてしまったり、他人の情報が閲覧できてしまったりする事態になります。もしかしたら、あえて名寄せされないようにすることで脱税などに悪用できてしまうかもしれません。
したがって、行政における名寄せの正確性というものは、公平・公正な社会の維持のために欠かせないものなのです。
①氏名
名寄せをするとき、まずは氏名で検索して「もし同姓同名がいたら次の処理に」って考える方が多いのではないでしょうか。
そんな第一の識別子候補となる氏名の名寄せには、多くの落とし穴があります。
改姓・改名
システム屋としては「いきなり識別子候補が変わるんかよ」と頭を抱えてしまいますが、冷静に考えれば氏名は当然変わる場合があります。
改姓だけでなく改名にも当然考慮が必要です。件数としては年間5千件程度のようですが、マイナーだからといって無視できないのが名寄せの難しさの一つでもあります。あり得ることは、すべて考慮しなくてはなりません。
改姓・改名については、普通のシステムなら当然考慮されているでしょうが、名寄せ処理は人間が判断するときも多いため、そこで落とし穴になります。
事例:他人の年金閲覧、「旧姓」の誤入力が原因→同姓同名の別人情報を取得:朝日新聞デジタル (asahi.com)
漢字/カタカナ/ローマ字
氏名が漢字だとは限りません。「基本4情報」では漢字が使われますが、名寄せ先の氏名データがカタカナやローマ字のケースもあり得ます。
銀行口座の氏名はカタカナですし、クレジットカードの氏名は(少なくともカードに印字されているのは)ローマ字です。
基本4情報には読み仮名が含まれていないため、この場合の名寄せはほぼ困難となります。
事例:1口座に複数のマイナ登録、13万件 銀行のカナ氏名と照合できず | 毎日新聞 (mainichi.jp)
氏名の表記揺れ
簡単な例としては、「姓」と「名」のあいだのスペースの全角/半角などが揺れます。
スペースがない場合、今度はどこまでが姓なのか判別が難しく氏名が出てきそうです。
「姓と名の入力欄を分ける」ことで一見対応できそうですが、外国人の氏名入力に対応できないケースが出てきます。
読み仮名(カタカナ)の表記揺れ
カタカナなら「ズ」と「ヅ」など。同音が揺れる可能性があります。
外国人の氏名をカタカナ表記している場合、同じスペルでも国によって発音違いますし、表記揺れ天国になりそうです。
読み仮名(ローマ字)の表記揺れ
基本的に読み仮名(カタカナ)と似た落とし穴を抱えていますが、そもそもローマ字には複数の表記表(ヘボン式/非ヘボン式)があり、カタカナよりも揺れる気満々です。
パスポートはヘボン式が原則とされていますが、例外的に非ヘボン式も認められています。例外がある限り考慮しなければならないのが名寄せのしんどいところです。
異体字と外字
ここで氏名編のボスが登場します。
河野太郎公式サイトの記事の最初の2行が大変わかりやすいので引用させていただきます。
これはあくまで官報文字の話です。普通のシステムの文字コードでは140種もの異体字を表現できません。
表現できない文字は「外字」という画像を登録して扱うのですが、この「外字」の登録先に割り当てる文字コードはシステムやベンダによってバラバラです。文字コードがバラバラというのは、見た目がまったく同じ文字であっても別の文字として認識され、名寄せができないということです。
そもそも、仮にすべてのシステムがすべての異体字を扱えたとしても、全国のワタナベさんが自分の文字形状を正確に覚えて、入力できていることは困難だと思いますので、この時点で氏名の正確な名寄せは絶望的だと思われます。
②生年月日
氏名を終えた時点でもうこの記事の目的は達成された気がしますが、続けます。
もし氏名が同じデータが複数出てきたときは、同一人物なのか別人なのか、生年月日で判別したくなりますよね。
生年月日というのは日付データですので、表記揺れがなく簡単に照合できそうだなと思います。思いますよね?
ここで最初の楠さんのツイートをもう一度読んでください。
どういうこと??????
と調べてみたのが、この記事を書くきっかけとなりました。
2通りの表記が存在する和暦
1926年12月25日は、「大正15年12月25日」と「昭和元年12月25日」の2通りの表記があるそうです。
明治45年(大正元年)7月30日も同様らしい。
存在しない2月29日
ここからが本題です。まずはこれを見てください。基本4情報を管理する住民記録システムの仕様書です。
暦上存在しない「うるう年でない2月29日のデータの存在」が許容されています。理由は次のとおりに書かれており、戸籍側の入力ミスかなにかとの不整合を防ぐための措置のようです。
レアケースと思われますが、やはり例外がある以上考慮しなければなりません。考慮しないと同一人物のはずのデータが別人として扱われてしまいます。
生年月日「不詳」
これは前述の「存在しない2月29日」とは違い、冷静に考えればあり得ることです。
住民記録システムの仕様上、次のような不詳日の入力が定義されています。こうしたデータも単純には名寄せできなくなってしまいます。
(「不詳」であることが両方のデータで分かっていれば、例外処理はやりやすそうですが。)
個人的に、この生年月日の仕様は衝撃でした。
③性別
基本4情報における性別は男/女のいずれかですので、データが揺れることはありません。
氏名と同じく変わりことはあり得ますし、性別が空欄の戸籍ができる場合があるらしいですが、今まで見てきた問題に比べればささいなことです。
なお、昨今では性的マイノリティへの配慮のため、民間サービスでは性別を無回答にできたり、そもそも記入欄が無かったりします。
地方公共団体においても、必要のない性別欄を廃止しているところも多いようです。今後の名寄せにおいては、性別は使えないケースが多くなると思ったほうが良いのかもしれません。
(↑ 2023/6/30修正: 「元から使えていない」という現状をコメントでいただいたため訂正しました。)
④住所
ここまで「氏名」「生年月日」「性別」の落とし穴を整理してきましたが、「住所」については冒頭に述べたとおり、私よりもずっと詳しい話題の記事を紹介して終わります。
名寄せの最後の頼みの綱であった「住所」は、たぶんラスボスです。
おわりに
こうして整理してみると「基本4情報による正確な名寄せは困難」というより、「むしろ今までどうやって名寄せしてこれたんですか?」という気持ちになります。
これまで名寄せに尽力されてきた方々には頭が上がりません。
ところで
ところで、「こんなに名寄せが大変なら、国民に一意なIDふればいいんじゃ?」と思いますよね。
そう、それが個人番号(マイナンバー)という発想なのです。
※2023/6/19:「辺」の異体字の画像を当初の引用から差し替えました。
※2023/6/30: 性別のところ、コメントいただいた内容も踏まえて修正しました。
この記事が気に入ったらサポートをしてみませんか?