見出し画像

国税庁 法人番号公表サイトの分析

国税庁が公表している法人番号公表サイトでは、日本の法人 5,467,443社(4月30日現在)に関する法人番号、法人名やフリガナ、英語社名、住所、英語住所などを提供しています。
法人名や住所に関するデータセットとしては非常に規模が大きく、自然言語処理の題材として面白いので、今回は、これらデータの内容を確認していきたいと思います。


サンプルデータ

今回の分析対象となるデータのサンプルは下記のとおりです。意図的に自然言語処理の対象となる変数で、かつ、欠損値(NaN)が無いレコードをランダム・サンプリングしました。データセット全体の項目に関する説明は、基本3情報ダウンロード > ダウンロードファイルのデータ定義を参照ください。

name,	kind,	prefectureName,	cityName,	streetNumber,	postCode,	enName,	enPrefectureName,	enCityName,	furigana
宇都宮家庭裁判所,	101,	栃木県,	宇都宮市,	小幡1丁目1-38,	3200036,	Utsunomiya Family Court,	Tochigi,	"1-1-38, Obata,	Utsunomiya shi",	ウツノミヤカテイサイバンショ
奥海印寺財産区,	201,	京都府,	長岡京市,	開田1丁目1番1号,	6170826,	Okukaiinji Property Ward,	Kyoto,	"1-1-1 Kaiden, Nagaokakyo City",	オクカイインジザイサンク
株式会社日本理化シェアードソリューションズ,	301,	東京都,	品川区,	大井1丁目20番6号,	1400014,	"Nippon Rika Shared Solutions Co., Ltd.",	Tokyo,	"20-6 Ohi 1-chome, Shinagawa ku",	ニホンリカシェアードソリューションズ
株式会社Xiberlinc,	301,	東京都,	墨田区,	横川1丁目16番3号横川倉庫センターオブガレージ,	1300003,	Xiberlinc Inc., Tokyo,	"Yokokawa Soko Center of Garage, 1-16-3 Yokokawa, Sumida City",	ザイバーリンク
明成通信株式会社,	301,	東京都,	調布市,	布田4丁目20番地2,	1820024,	"Meisei Correspondence Co., LTD.",	Tokyo,	"NK Building 301, 4-20-2 Fuda, Chofu shi",	メイセイツウシン

国の機関、地方公共団体、株式会社など、様々な法人のデータが並んでいます。上からデータを眺める限り、国の機関や地方公共団体は、英語住所もしっかり登録されているように見えますが、果たして、この辺の認識が正しいのか、今回はデータの傾向を見ていきたいと思います。

基礎統計量

レコード全体が 5,467,443 件で、法人名(name)と法人種別(kind)は、すべて値が入っていることがわかります。

  • 法人名(name):英語法人名(enName)は12,892件(0.2%)しか登録されておらず、フリガナ(furigana)は、2,926,632件(53.5%)と比較的登録されています。

  • 住所(streetNumber):都道府県と市区町村、およびそれ以降の住所については、その品質は別にして、ほとんど登録されているようです。一方で、英語の住所(enPrefectureName, enCityName)については、12,572件(0.2%)と、英語法人名同様にほとんど登録されていないようです。

法人格別の充足状況

英語法人名

英語名の法人名については、上記で書いた通り、国の機関や地方自治体での充足率は100%に近いが、そのほかの法人格では壊滅的な状態になっていることが分かる。
英語法人名は、海外ビジネスをしている場合でもローマ字表記を使っている場合もあり、この項目を自然言語処理等を使って改善するのは難しそうです。

法人名フリガナ

フリガナについても、地方公共団体(Local Government)と国の機関(National Agency)についてはフリガナの付与率100%となっています。有限会社(Y.K.)および株式会社(K.K.)で多くのフリガナが欠損しているようで、この辺の補正が必要なようです。
漢字で記載された文字列のカタカナ化はpyKakasiで変換ができるようなので、後続のプロジェクトで改善を試みてみようと思います。

住所

住所の詳細は分かりませんが、充足率だけで見れば海外の法人を除いて、すべてのレコードに値が入っています。
住所についてはハイフン表記と丁目表記が混在しているので、こちらも後ほど標準化を図っていきたいと思います。

英語住所

英語法人名同様に、国の機関と地方公共団体の充足率は非常に高いが、そのほかの法人格における充足率は、ほぼゼロという結果となりました。
日本郵便が作成している日本語住所とローマ字住所の対比表、および、pykakasi を使った英語化を考えていきたいと思います。

まとめ

今回は、法人番号公表サイトのデータの内容を確認してみました。大規模なデータセットで非常に面白いものですが、一方で、欠損している値も多く、データセットとして使う上で課題があることも分かってきました。
今後、これらデータセットの欠損値の補完、クレンジングを行っていきたいと思います。

この記事が気に入ったらサポートをしてみませんか?