プロジェクト実施における課題と解決のための工夫:行政データと実証経済学②
経済セミナー編集部noteでは、『経済セミナー』2022年6・7月号から23年10・11月号まで8回にわたって連載した「行政データと実証経済学:東京大学CREPE自治体税務データ活用プロジェクトの実践」を、第1回から改めて掲載していきます。
第1回から第8回までの各回は、以下の noteマガジン に順次公開していきますので、ぜひご覧ください。
このnoteでは、2022年8・9月号に掲載された連載第 2 回をお送りします。
著者紹介
正木祐輔
神戸市デジタル監(DX担当局長)/東京大学政策評価研究教育センター招聘研究員
1. はじめに
連載の第1回(2022年6・7月号)では、東京大学政策評価研究教育センター(CREPE)による「EBPM推進のための自治体税務データ活用プロジェクト」設立の背景とねらいを紹介した。
本プロジェクトは、「① アカデミアにおける実証研究の発展」と「② 日本の行政におけるEBPMの推進」を主なねらいとしていたが、第1回でも述べたように、個人情報保護法制との整合性の整理、個人情報を保護しつつ統計的な有用性を保つための匿名化処理のあり方等、プロジェクトを実際に行うために乗り越えなければならない課題が数多くあった。
連載の第2回となる今回は、本プロジェクト実施に当たって具体的にどのような課題に直面し、それらをどのように解決してきたかを紹介する。
今回はプロジェクトの本体となる経済分析とはかなり性質を異にしており、きわめて技術的な内容も含むが、こうしたものこそが行政記録情報(「行政データ」とも呼ばれる)の学術利用を阻んできた大きな要因であると考えられることからあえて紹介したい。
2. 法的課題
本プロジェクトを実施する際に検討する必要があった最も大きな課題は法的課題であった。具体的には、各自治体における個人情報保護条例及び地方税法上の守秘義務との関係である。
自治体の税務担当課は、必ずしも個人情報保護に関する専門家ではない。データ分析を担う経済学者も同様である。そのため、データ提供可能範囲についても、条例や法律の文言に即して、どこまでが許容されるか論じられているというよりも、漠然と「税務データは個人情報保護条例や地方税法上の守秘義務の関係で利用できないらしい」といった認識で、実際に条例や法律が求める水準よりも過度に抑制的な運用がなされている場合がある。
そこで、本プロジェクトでは、こうした法的課題に関して正面から向き合うため、これまで総務省「行政機関等が保有するパーソナルデータに関する研究会」(2014~2016年)をはじめとする政府の各種研究会・検討会等の構成員を歴任している宍戸常寿・東京大学大学院法学政治学研究科教授の参画のもと、あらかじめデータ提供に当たって自治体が直面するであろう法的課題の整理を行い、自治体に提示した。
2.1 個人情報保護法制との関係
まず出発点として、行政記録情報は個人情報である。本プロジェクトでは、自治体が個人情報たる行政記録情報を加工し、CREPEに提供して、CREPEが分析することになっている。これが、個人情報保護の観点から許容されるか、というのが1つ目の問題である。
法的規律を見るうえでの視点として、データ提供側(自治体側)の規律と、データ利用側(CREPE側)の規律を見る必要があり、順に論ずる。
2.1.1 データ提供側(自治体側)の規律
この問題を理解するうえで、前提となるのは、本稿執筆時の2022年6月時点では、自治体における個人情報保護のあり方を規律しているのは、自治体ごとに定められた個人情報保護条例であるということである。「デジタル社会形成整備法」[1] により個人情報保護法が改正され、2023年4月1日からは、自治体における個人情報保護についても国の新たな個人情報保護法(以下「新個人情報保護法」という)によって規律されることとなっている。
自治体ごとに規定は異なるが、多くの条例において、学術研究目的での提供は、個人情報の外部提供制限の例外に当たることが明記されている。新個人情報保護法第69条第2項(改正前同法でも同じ)においても、同様に、「学術研究の目的のために保有個人情報を提供するとき」(同項第4号)は、「利用目的以外の目的のために保有個人情報を……提供することができる」こととされている。
したがって、自治体が、行政記録情報を個人情報としてそのままCREPEに提供することも、「保有個人情報を利用目的以外の目的のために自ら利用し、又は提供することによって、本人又は第三者の権利利益を不当に侵害するおそれがあると認められる」といったことがない限り(新個人情報保護法第69条第2項ただし書参照)、多くの個人情報保護条例及び新個人情報保護法において、許容されうる。
一方で、法制上、許容されうるとしても、自治体にとっては、CREPEは外部の機関であり、生の情報をそのまま共有することに慎重になるのは当然である。また、氏名のような情報は通常のデータ分析では不要であり、いたずらにCREPEで保持しておくこともかえってリスクとなる。
そこで本プロジェクトでは、行政記録情報は自治体において匿名化していただくこととし、2種類の匿名化手法を用意することとした。
Ⅰ 簡易な匿名化
Ⅱ 高度な匿名化(匿名加工情報制度において求められる水準の匿名加工)
ここで言う「匿名加工情報制度」とは、個人情報について、特定の個人を識別できないような匿名加工を行うことにより、個人情報の保護を図りつつ、個人に関する情報の適正かつ効果的な活用を促進する制度のことであり、個人情報保護法第2条第6項(新個人情報保護法でも同じ)において規定されている。現在は、ほとんどの自治体の個人情報保護条例において規定がないが [2]、デジタル社会形成整備法により、すべての都道府県・指定都市において導入されることとなる。
ただし、先述のとおり、多くの個人情報保護条例及び新個人情報保護法においては、学術研究目的での提供は、必ず匿名加工しなければならないわけではない。また、そもそも現段階では、ほとんどの自治体の個人情報保護条例において規定がないため、多くの自治体においては、匿名化がなされたとしても、匿名加工情報制度がそのまま適用されるわけではなく、法的には個人情報の提供としての規律(先述の学術研究目的での提供に関する規定など)に即して行われることになると思われる。
Ⅱの高度な匿名化は、より匿名性が高いものとなり、後述のとおり、できるだけ分析の質を低下させないような匿名化を行っているが、それでもどうしても元のデータに加工を加えることから、分析内容によっては、分析の質が下がることもある。
Ⅰの簡易な匿名化は、匿名加工情報制度において求められる水準の匿名加工とは必ずしも言えないものの、氏名、個人番号(いわゆるマイナンバー)、住所等の削除や、3.2項で述べる宛名番号、世帯番号のハッシュ化等を行うものであり、Ⅱと比べて匿名性が低いものとなるが、CREPEが提供する分析結果は質・精度の高いものとなる。
いずれの匿名化手法をとるかについては、こうしたトレードオフに留意のうえ、自治体において判断いただくこととしている。
2.1.2 データ利用側(CREPE側)の規律
匿名化後のデータの提供を受けようとするCREPEは、国立大学法人東京大学に置かれた機関であり、その立場から、データの保有、利用等に関して、個人情報保護法の規律に服する [3]。
本プロジェクトの実施に当たっては、CREPEにおいて、データの取扱いに関して、個人識別行為の禁止等を定めた「自治体税務データ活用プロジェクトにおけるデータ取扱規則」「自治体税務データ活用プロジェクトにおける安全管理措置等に関する規程」を定めており、個人情報の管理に万全を尽くしている。
今後さらに、東京大学の本部も交えて、CREPEにおける適正なデータの取扱いについて検討する予定である。
2.2 地方税法との関係
個人情報保護と並んで、法的課題として検討を要する問題の2つ目が、地方税法上の守秘義務との関係である。
地方税法第22条(秘密漏えいに関する罪)では、地方税に関する調査・徴収に関する事務に従事している者または従事していた者が、「これらの事務に関して知り得た秘密を漏らし、又は窃用した場合においては、二年以下の懲役又は百万円以下の罰金に処する」こととされている。
ここで、「秘密を漏らし」とは、「秘密事項についてそれを知らない第三者にそれを告知すること」[4] とされている。
また、国家公務員法第100条(秘密を守る義務)の解釈では、「秘密」とは、「非公知の事実であつて、実質的にもそれを秘密として保護するに値すると認められるもの」をいうとする判例 [5] がある。
今回、自治体がCREPEに提供するデータは、少なくとも、匿名化がなされているものであり [6]、秘密たりえない状況にあると解釈できるのであれば、地方税法第22条の構成要件を満たさず、したがって、同条が規定するところの秘密漏えいたりえないと考えられる。
3. 情報工学的課題
3.1 匿名加工情報制度
前節では、本プロジェクトにおいて、自治体の多様なニーズに応えるため、「Ⅰ 簡易な匿名化」と「Ⅱ 高度な匿名化(匿名加工情報制度において求められる水準の匿名加工)」の2つの匿名化手法を用意していると述べた。
ここで、Ⅱの高度な匿名化が参照する匿名加工情報制度については、個人情報保護法及び個人情報保護法施行規則に規定がある。匿名加工情報とは、「特定の個人を識別することができないように個人情報を加工して得られる個人に関する情報であって、当該個人情報を復元することができないようにしたもの」(個人情報保護法第2条第6項)であり、行政機関等匿名加工情報の作成の方法に関する基準については、個人情報保護法施行規則第62条に規定がある。そのほか、個人情報保護委員会「個人情報の保護に関する法律についてのガイドライン(仮名加工情報・匿名加工情報編)」(2016年11月〔2021年8月一部改正〕。以下「ガイドライン」という)、個人情報保護委員会事務局「個人情報保護委員会事務局レポート~パーソナルデータの利活用促進と消費者の信頼性確保の両立に向けて~」(2017年2月。以下「事務局レポート」という)、国立情報学研究所匿名加工情報に関する技術検討ワーキンググループ「匿名加工情報の適正な加工の方法に関する報告書(2017年2月21日版)」などが参考になる。
しかし、こうした基準等がありつつも、最終的には機械的に判断できない部分が残り、特に、現行の個人情報保護法施行規則第62条第5号で定められている要件 [7] に関しては、「加工対象となる個人情報データベース等の性質によって加工の対象及び加工の程度は変わり得るため、どの情報をどの程度加工する必要があるかは、加工対象となる個人情報データベース等の性質も勘案して個別具体的に判断する必要がある」[8] とされている。そのため、どの程度の匿名化が必要かは、加工対象となる個人情報データベース等の性質も勘案して個別具体的に判断する必要がある。
しかし、自治体の税務担当課や経済学者は、個人情報保護についての専門家でないのみならず、個人情報保護法上の匿名加工制度についての専門家でもなく、また、自治体の個人情報保護担当課であっても、匿名加工についての経験があるところはほぼない。
そこで本プロジェクトでは、国立情報学研究所「匿名加工情報に関する技術検討ワーキンググループ」(2017年に報告書公表)座長など [9]、匿名加工技術に関する検討の中心を担ってきた佐藤一郎・国立情報学研究所教授の監修のもと、どのような匿名化処理を行えば、十分な匿名性が確保できるかについて、具体的な匿名加工の手法とその考え方を提案し、それに対して自治体に判断いただく形とした。これにより、必ずしも自治体に匿名加工に関する専門知識がなくても対応できることとした。
なお、個人情報保護法の「匿名加工情報」の要件である「特定の個人を識別することができない」こと、及び「個人情報を復元することができない」ことは、一般人及び一般的な事業者の能力、手法等を基準として判断され、あらゆる手法によって特定・復元できないよう技術的側面からすべての可能性を排除することまで求めるものではない、とされている [10]。
3.2 匿名化処理の概要
具体的に、本プロジェクトにおいて提案している手法は、図1に示している。「Ⅰ 簡易な匿名化」を選択する場合は黒丸数字⓿~❸の流れ、「Ⅱ 高度な匿名化」を選択する場合は白丸数字⓪~⑦の流れで、匿名化処理を行うことを想定している。
各項目の考え方は以下のとおりである。
① 特異な世帯の世帯番号の秘匿
特異な世帯 [11] は、それだけで個人識別性が高くなるため、その世帯番号を秘匿する。
❶② 宛名番号、世帯番号のハッシュ化
宛名番号 [12]、世帯番号 [13] については、ハッシュ化 [14] を行う。
これらは通常、一般に知りうるものではなく、知りえたとしてもそこからすぐに個人情報にアクセスできるものでもないが、自治体内でさまざまなシステムを通じて横断的に使われていることもあり、万が一、流出したときの影響が大きいため、ハッシュ化を行う。年度をまたがる個人の紐付けは、このハッシュ化した宛名番号により行う。
ハッシュ化の方法としては、伴付きハッシュ関数を用いるものとし(伴となる秘密の文字列は自治体限りとしていただく)、先述の事務局レポート(21頁)で利用が推奨されているCRYPTREC(Cryptography Research and Evaluation Committees)が公開する電子政府推奨暗号リスト [15] において挙げられているハッシュ関数のアルゴリズムを用いる。
❷③ 宛名番号をキーにして、複数年のデータの結合
宛名番号をキーにして、複数年のデータを個人単位で結合する。
「Ⅱ 高度な匿名化」の場合は、生年月、性別、郵便番号(郵便番号がデータセットに入っている場合。⑥において同じ)が年度によって異なる場合は、最も古いものを優先する。自治体内で転居した場合は、年度によって郵便番号が異なることがあるが、ある郵便番号の場所から別の郵便番号の場所に転居したという情報は、個人識別性が高いため、最も古い郵便番号を保持する(転居情報を隠す)ことによって、匿名性を確保する。
④ 所得、賦課額等のトップコーディング
所得、賦課額、控除額等の金額については、同じ性別・年代ごとに0.5%を対象として(ただし、この0.5%に含まれる人数が10人に満たない場合は10人を対象とする。以下同じ)、トップコーディングを行う。トップコーディングとは、加工対象に含まれる情報のうち、特に数値の大きいグループについてまとめる処理のことである。
具体的には、同じ性別・年代(西暦の生年の上3桁)ごとに各項目(例:所得であれば所得、賦課額であれば賦課額)の上位0.5%を、同じ値(上位0.5%の平均値)に変換する。これにより、たとえば、「男性・1970年代生まれ」が1万人いる自治体であれば、上位50人が同じ所得となり、人数の少ない高所得者層であっても個人を特定するのが困難になる。
この結果、データセット中に男女それぞれで1930年代~2020年代生まれが少なくとも10人ずついるとすると、少なくとも10人×2(男女)×10(年代)=200人がトップコーディングされることとなり、人口4万人以上の場合はこれ以上の人(少なくとも人口の0.5%)がトップコーディングの対象となる。
❸⑤ 生年月日の月単位への丸め
生年月日については、「日」の情報を落として、月単位に丸める。このときの丸め方としては、生年月日の前日の年と月に丸める。
たとえば、2001年1月1日生まれの人と2001年1月2日生まれの人がいた場合、前者は2021年1月1日時点で20歳であり、後者は19歳である [16]。行政の取扱い上、1日時点の年齢で判断されることが多いため(学齢等)、前者については前日(2000年12月31日)の年と月である「2000年12月」に、後者については前日(2001年1月1日)の年と月である「2001年1月」に丸める。
もっとも、生まれ月まで入っていると、個人を特定できるリスクが高くなるが、この問題については⑥の処理で対応する。
⑥生年月、性別等について、「3-匿名性」を判定し、「3-匿名性」を満たさないものは、「3匿名性」を満たすまで秘匿
データセットにある変数のうち、生年月、性別、郵便番号については、他者が容易に情報を得ることができることが多く、これらから個人を特定するリスクを避ける必要がある。「3-匿名性」[17] が確保されれば、生年月、性別、郵便番号が同じ個人が少なくとも3人(自分を除けば2人)いることが保証されるので、生年月、性別、郵便番号の情報を得ても、当該個人である確率は1/3以下となる(さらに、後述の⑦の処理を行うことでその確率は1/6以下となる)。
しかし、たとえば、特に高齢である人や過疎地域に住む人などは、「3-匿名性」を満たさないことがある。その場合、「3-匿名性」を満たすように、生年月、性別、郵便番号のいずれかを秘匿 [18] する。
秘匿の順序は、以下のとおりとする。
生年月を四半期(1~3月、4~6月、7~9月、10~12月)にする
郵便番号の7桁目を秘匿
郵便番号の6桁目を秘匿
郵便番号の5桁目を秘匿
郵便番号の4桁目を秘匿
郵便番号を秘匿
生年月を半期(1~6月、7~12月)にする
生年月の月を秘匿
生年を5年単位で丸め
生年の下一桁を秘匿
生年を秘匿
これにより、すべての個人が「3-匿名性」を満たすこととなる。
⑦各世帯番号(のハッシュ値)について、ランダムサンプリング
⑥で得られたデータセットのうち各世帯番号(のハッシュ値)について、50%の確率でサンプルに入れるかどうかをランダムで決める(ランダムサンプリング)。この際、ある個人が年度間で異なる世帯番号を持つことが考えられるため、データセット中のいずれの年度においても、1世帯内でサンプルに入っている構成員と入っていない構成員がいないように処理する。このようにランダムサンプリングを行うのは、個人の特定ができない状況でも、個人の情報が得られてしまうリスクに対処するためである。
たとえば、「1932年1月生まれ・女性・郵便番号9876543」が3人いる場合、これらの情報からは3人のうち誰かを特定できず、「3-匿名性」を満たす。しかし、データセットの中で、「1932年1月生まれ・女性・郵便番号9876543」の3人の所得が全員「0円」だったとすると、3人の誰かは特定できなくても、所得が「0円」であることはわかってしまう。
そこで、50%のランダムサンプリングを行うことにより、個人がデータセットに入っている確率が、個人がデータセットに入っていない確率を上回らないようにする。そうすることにより、上記のような推論が成り立つ可能性が、上記のような推論が成り立たない確率を上回らないことになる。また、個人単位ではなく、世帯単位でサンプリングを行うのは、1世帯内でサンプルに入っている構成員と入っていない構成員がいないようにするためである。
なお、50%はあくまで確率であるため、サンプルサイズが元のデータセットのレコード数のちょうど50%に一致しない可能性がある。たとえば、人口10万人ちょうどの自治体について⑦の処理を行った場合、サンプルサイズは平均では5万人ちょうどとなるが、場合によって49,892人になったり50,006人になったりする。
4. プログラミング上の課題
前節で示した匿名化手法の提案について自治体の了解を得られたら、次は自治体において、行政記録情報の匿名化を行っていただくことになる。この段階でも、やはり自治体担当者はこうしたデータ加工を日常的に行っているわけではないため、
CREPEが匿名化を実行するプログラムをフリーの統計分析ツールであるRで作成し、自治体に配付した [19]。
Rを使う理由は、自治体に実行していただく関係上、無料である必要があることと、後述のように多様な自治体を1つのコードで匿名化するためのメタプログラミング(図2参照)を行いやすいことである。ここでCREPE自ら匿名化を行わないのは、そうしてしまうと、CREPEが匿名化前の生データに触れることになってしまうからである。
4.1 普遍的なプログラミングの必要性
本プロジェクトでは、「① アカデミアにおける実証研究の発展」と「② 日本の行政におけるEBPMの推進」という2つの目的を掲げているが、実際には、研究者と政策現場では、さまざまな点で問題意識や視点が異なり、その達成は容易ではない。とりわけ、研究においてはオリジナリティが求められるが、政策現場では当該分析がオリジナルかどうかは問題ではなく、別の場所で使われた手法の焼き直しだとしても、政策立案に役立つのであればそれでよい。
また、プロジェクトへの参加自治体数が増えたとき、研究においてはそこまで多くの自治体のデータは必要ないということも十分ありうる。しかし、必ずしもEBPMに人的・財政的コストをかけられない「普通の」自治体にも一定品質の分析結果を使ってもらうことをプロジェクトの1つの目的と考えるのであれば、より多くの自治体の参加を可能とするためにも、1自治体当たりのCREPE側の人的・財政的なコストをできる限り小さくするという視点が不可欠である。
そのため、本プロジェクトでは、普遍的な匿名化・分析プログラムを作成し、共通のプログラムをすべての自治体に適用することとした。
4.2 さまざまな面での自治体の多様性とそれへの対応
その一方で、自治体は多様である。全国に約1800ある自治体には、都道府県もあれば市区町村もある。自治体情報システム標準化がまだ実現していない現状では、データ構造・データ形式は自治体ごとに異なり、性別を「男」「女」で管理しているところもあれば、「1」「2」で管理しているところもある。県の企業データであれば、修正申告も含めて申告ごとに管理する県もあれば、修正申告があれば上書きして管理する県もある。匿名化を行うPCがインターネットに接続できる自治体もあれば、接続できない自治体もある。生年月日を「19890123」(=1989年1月23日)のように8桁の数字で保存しているところもあれば、Excelの仕様と同様に1899年12月30日からの日数で保存しているところもある。また、保存しているさまざまな情報のうち、生年情報しか提供できない自治体もある。最新の年度のデータが手に入る自治体もあれば、入らない自治体もある。おおまかに県と市をあわせた年税額を知れれば十分という自治体もあれば、寄附金控除の額など細かい項目まで知りたいという自治体もある。さらには、匿名化の対象となる「特異な世帯」の定義を変えたいという自治体もある。
こうした多様な自治体に対して、自治体を通じて共通の匿名化・分析プログラムを適用するためには工夫が必要である。本プロジェクトではプログラミング上、主に以下の2点によりそれを実現している。
① 自治体ごとに対応する必要がある箇所は、Rのプログラムとは別にExcelファイル [20] などを用いることで、匿名化・分析プログラムの外でパラメータとして設定できるようにする。
② メタプログラミングの手法 [21] を用いて、匿名化・分析プログラム自体は自治体を通じて共通のものとする。
4.3 自治体側でRを回すことに伴う課題
自治体に匿名化プログラムを送付する際には、事前に自治体からサンプルとして架空データをいただき、CREPE側でそのデータできちんとプログラムが回ることを確認してから自治体に送付しているが、どうしても本番データでは架空データにない異常値の存在などによってエラーになることがある。その場合は、エラーのログをCREPEに送付いただき、CREPE側でプログラムを修正することで対応した。これにより、最終的にはどの自治体もエラーなく匿名化を行うことができた。
5. おわりに
以上のとおり、本プロジェクトの実施に当たっては数多くの課題に直面した。実際には、ここに挙げなかった細かな課題も数多くあったが(自治体のPCのスペック〔メモリ〕が足りないなど)、こうした課題をなんとかクリアして、多様な自治体のニーズに応えつつ、自治体において匿名化を行ったうえでデータを提供いただき、CREPEにおいて分析した結果を自治体に返すことができた。
このようにして、昨年度、自治体に提供したのは翌年度の税収予測だったが、これはあくまで最初のステップであり、当然ながら、行政記録情報により可能となる分析はこれにとどまるものではない。今年度はさらに多くの研究者が参画し、税収予測のみならず、マクロ経済変動(コロナ危機、金融危機など)と所得格差の関係や、コロナ禍において最も所得の変動があったのはどの層かといった分析も行う予定である。また、税務データのみならず、福祉データ・教育データとも連携することで、保育所の拡充によりどの程度女性の就業が増えるか、いじめや長期欠席などのリスク要因と有効な予防策は何かといった分析も行える見込みである。こうした研究成果については、学術論文として公表するとともに、参加自治体にも還元することで、政策立案の参考としていただきたいと考えている。
昨年度は約20の自治体に参加いただいたが、今年度は、昨年度からの継続参加自治体に加えて新たに30を超える自治体から応募いただいた。さまざまな課題があり、手探りではあるものの、本プロジェクトにより、日本における行政記録情報の研究利用が少しでも進み、これまで必ずしもEBPMに人的・財政的コストをかけられなかった自治体が行政記録情報を用いた分析に触れるきっかけとなることを望んでいる。
謝辞
筆者は、地方自治制度を所管する総務省の職員であり、自治体のプロジェクトへの参加呼びかけに当たっては、筆者の総務省・自治体勤務を通じて知り合った多くの方に御協力いただいた。また、プロジェクトに参加いただいた自治体の方にも大変お世話になった。あえてここで個人名を挙げることは差し控えたいが、この場を借りて感謝申し上げたい。
「自治体税務データ活用プロジェクト」の最新情報については、以下の文部科学省科学研究費補助金学術変革領域研究 (B)「税務データを中心とする自治体業務データの学術利用基盤整備と経済分析への活用」のウェブサイトをご覧ください!
*本稿は、『経済セミナー』2022年8・9月号からの転載です。
サポートに限らず、どんなリアクションでも大変ありがたく思います。リクエスト等々もぜひお送りいただけたら幸いです。本誌とあわあせて、今後もコンテンツ充実に努めて参りますので、どうぞよろしくお願い申し上げます。