見出し画像

自治体税務データを用いた住民税予測:行政データと実証経済学③

経済セミナー編集部noteでは、『経済セミナー』2022年6・7月号から23年10・11月号まで8回にわたって連載した「行政データと実証経済学:東京大学CREPE自治体税務データ活用プロジェクトの実践」を、第1回から改めて掲載していきます。

第1回から第8回までの各回は、以下の noteマガジン に順次公開していきますので、ぜひご覧ください。

このnoteでは、2022年12月・23年1月号に掲載された連載第 3 回をお送りします。


著者紹介

深井太洋ふかい たいよう
筑波大学人文社会系助教

プロフィール
2021年、東京大学大学院経済学研究科にて博士号を取得。内閣府経済社会総合研究所研究官等を経て、2022年より現職。東京大学大学院経済学研究科特任研究員等を兼任。主著:"Describing the Impacts of COVID-19 on the Labor Market in Japan until June 2020,"(共著)Japanese Economic Review, 72: 439-470, 2021. "Cognitive Functioning among Older Adults in Japan and Other Selected Asian Countries: In Search of a Better Way to Remeasure Population Aging,"(共著)Asian Development Review, 39(1): 91-130, 2022

1. はじめに

本連載の第2回(2022年8・9月号)では、 「EBPM推進のための自治体税務データ活用プロジェクト」において、個人情報保護法制との整合性の整理やデータの匿名化処理について紹介した。 では、データの活用に伴う数多くの課題を乗り越 えた自治体税務データはどのように活用されたのだろうか。 連載の第3回となる今回は、本プロジェクトの主なねらいの2つ目である「② 日本の行政におけるEBPMの推進」に関する取り組みとして、プロジェクト初年度に行った自治体の個人住民税の予測について紹介する。自治体における個人住民税の予測を通してわかったことや、分析を通して見えてきた、分析結果が政策立案や予算編成などに活用されるための課題などを紹介したい。

2. 住民税予測の重要性

自治体税務データを用いて初年度に始めた取り組みが「税収予測」である。なぜ税収予測を始めたのかについてはいくつか理由があるが、大きな理由として自治体における行政サービスの運営の多くが税によって賄われている点が挙げられる。『令和4年版 地方財政白書』(総務省)によると、2020(令和2)年度の地方自治体の歳入決算額のうち一般財源に占める地方税の割合は67.8%であった。インフラ整備や福祉サービスなどの原資となる一般財源のうちの約7割が税によって賄われているのである。行政サービスの財政基盤となる歳入予測の重要性についてFeenberg et al.(1989)は以下のように述べている。

One important determinant of a state's ability to conduct reasonable fiscal policies is the quality of its revenue forecasts. Sensible deliberations about expenditures cannot be made in the absence of "good" forecasts.

(参考訳)州政府(地方自治体)が合理的な財政政策を実施できるか否かの重要な決定要因の1つは、税収予測の質である。「良い」予測なしには、支出に関する賢明な議論はできない。

Feenberg et al.(1989)、「参考訳」は筆者による

地方自治体の歳入の多くが税によることを鑑みると、自治体税務データを用いたより正確な税収の予測は自治体運営においてきわめて重要であり、本プロジェクトのねらいである「② 日本の行政におけるEBPMの推進」に合致する。

地方税の中でも個人住民税の予測を中心に行った。『令和4年版 地方財政白書』によると、地方税に占める個人住民税の割合は都道府県が26.8%、市町村が37.5%であり、予測の精度を上げることの貢献が十分にありそうだ。日本においてもこれまで、時系列の集計データと名目賃金上昇率や15 歳以上人口の成長率を用いて日本における個人住民税総額の予測が行われてきた(橋本・呉 2009)。これまでの分析との違いは、(1) 個人レベルの税収データを用いて、(2) 自治体別の税収の予測をするという点である。これらの点にどのように対応し、予測を行っていったのかを早速見ていこう。

3. 自治体税務データによる税収予測

2021年度は個人住民税や所得に関するデータの提供を受けた6つの基礎自治体について税収の予測を行った。多くの自治体からは過去5年分のデータが提供され、最も長く提供いただいた自治体では10年分のデータを利用することができた。提供を受けたデータは個人レベルの税額や所得であり、提供自治体に住み続ける限りは個人を追跡することができるようなパネルデータである。このデータを用いて、各自治体における2022年度の個人住民税収額の予測を行うのが今回のミッションだ。

3.1 自治体における独自の税収予測

各基礎自治体においても、予算編成のために税収の予測を行っている。詳細な方法は自治体によって異なるが、個人住民税については過去の税収の推移、生産年齢人口の変動見込みやその年における経済状況を示す変数(毎月勤労統計調査、法人企業景気予測調査、名目GDP成長率など)を勘案して予測を行っているようだ。

予測の精度は自治体によって異なるが予算を決める材料となるため、やや保守的な予測をするケースが多い。また事前の自治体へのヒアリングから予測の精度はおおむね誤差率(=予測誤差 / 税収総額の絶対値)が5~10%であることもわかった [1]。税収の予測についてはあまり過小に予測をしても自治体の活動を縮小させてしまう可能性があるため、誤差率は低い方が望ましい。われわれのプロジェクトではこの5~10%の誤差率がベンチマークであり、いかにして誤差の小さい予測をできるかが重要なポイントとなる。

[1] 規模の大きい自治体や、税収が安定的な自治体では、すでに1~2%といった精度の高い予測ができているところもあった。

3.2 個人レベルのデータを用いたアプローチ

前述のように、本プロジェクトでは自治体から個人レベルの所得や税額についてデータの提供を受けており、以下の利点があることから個人住民税総額の予測に取り組んだ。第1に個人のパネルデータを利用することができるため、過去の税額や所得を用いたダイナミクスの推定が可能である点だ。また、個人の年齢や性別といった属性情報も提供されており、それらの情報を考慮した予測を行うことができる。すなわち自治体内における各コホートサイズが大きく変わる場合、就職や退職などによる所得の変動に伴う税額の変動をより正確に捉えることができる。時系列方向に長いデータではなく、時系列分析の手法を用いた予測は難しいが、豊富な個人レベルの情報を活用して予測の精度向上を試みる。個人レベルのデータから予測された税額を集計することで、自治体における個人住民税収額の予測値とした。

本プロジェクトでは時間の制約上、各個人の所得ではなく個人住民税額の予測を行った。個人住民税額の予測のためには、理想的には給与所得だけでなく税額の計算に使われるすべての項目(各種控除、配当所得など)についての予測を行い、税制に従って税額を計算することが必要となる。しかしながら、すべての項目についての予測は、それぞれの制度を理解し反映させたうえで個々の項目の予測精度を考えていく必要があり時間を要する。タイムリーな予測の提供が政策活用のために重要であることを鑑みた結果、初年度は個人住民税額の予測を行うこととした。

予測を行うにあたって、まずは自治体の個人住民税が誰によって納められているのかを整理しておく。個人住民税は1月1日現在において対象となる自治体に住所がある人に対して課税がなされる。個人住民税額は、ある一定水準以上の所得がある人に定額でかかる均等割と、前年の所得額に応じて計算される所得割を合算した額で決められている。すなわち、重要なのは1月1日時点で対象となる自治体に居住しているかどうかと、前年の所得額である [2]

[2] 扶養控除などの各種控除も税額の決定には重要な要素であるが、大きな役割を果たしているのは前年の所得であるためここでは細かい議論はしない。

こうした制度的背景から個人住民税収予測のために、個人を3パターンに分類した(図1参照)。1つ目は、(A) 対象となる自治体に住み続ける人である。2つ目は、(B) 前年までは対象の自治体に居住していたが、その年の1月1日時点で転出あるいは死亡してしまっている人である。3つ目は、(C) 前年までは対象となる自治体に居住していなかったが、その年の1月1日時点で転入あるいは出生し居住している人である。それぞれのパターンについて予測を行い、その年1月1日時点で居住しているであろう人についての税収額を予測し、それを総計することで自治体における個人住民税収の予測をするというアイデアだ。

図1 税収予測の図解

それぞれのパターンについてどのように予測を行っていくのかを見ていこう。まずパターン (A) の人については、過去の税額や性別・年齢などの属性変数から翌年の税収額を予測する関数の推定を行う。提供されたデータでは1年前や2 年前のラグ変数を用いて柔軟に推定を行うことができる。次にパターン (B) についてだが、予測をしたい年についてある人が翌年に転出するかはわからない。そこで、過去のデータを用いてある年に居住していた人が翌年に転出・死亡する確率を、過去の税額や性別・年齢などの属性変数から予測する関数の推定を行う。パターン (A) とパターン (B) の結果を用いて、ある年に居住している人の翌年の期待税額を「(A) 予測税収-(1-(B) 予測転出率)」によって計算することが可能となる [3]。最後に、パターン (C) の人についてだが、予測をしたい年にどのような人が転入してくるかはわからない。そこで、過去のデータからわかる転入者の税収額や年齢のトレンドを用いて予測を行う。転入者については対象となる自治体に居住する前の税額などの情報がないため、トレンドから予測を行う。

[3] データ提供を受ける際に、データ提供時点に居住している人だけのデータでなく、ある時点において居住している人すべてのデータについて提供を受けるのが重要となる。

それぞれのパターンについて予測を行えば、あとは集計をすることで自治体の個人住民税額の予測となる。すでに居住している人についての翌年の税収額は、A × (1-B) を個人について総計することで得られる。新たに転入してくる人については、過去のトレンドを用いた (C) の値を総計することで得られる。本プロジェクトではこの2つの総和を個人住民税額の予測値とした。

具体的な個人住民税や転出確率の推定は、できる限り柔軟かつ予測率が高くなるような工夫を行った。過去の税額や年齢を細かいカテゴリー変数にした柔軟な推定、スプライン関数の活用やランダムフォレスト(Breiman 2001)など機械学習の手法を試した。また、個人住民税については1 年前の値だけではなく2年前の値も用いることで、より個人の収入の変動に関する情報を活用できるようにしている。さらに、Bell, Bloom and Blundell(2022)が指摘しているように、足元の経済変数が、税収の予測に効果的である可能性がある。そこで、法人企業景気予測調査(財務省)のようなマクロレベルの景気指標や県別の一般職業紹介状況などのローカルな景気状況を捉える変数を活用し、過去の税額情報との相関の異質性を許容した形でモデルに組み込んだ分析も行った。

個人の税収予測関数の推定結果からは、以下のような特徴がわかった。まずは、個人の過去の税額の予測力が高いという点だ。やはり、同一個人について前年や前々年の税額は今年の税額の予測に重要であり、おおむね8割前後が過去の税額だけで予測できることがわかった。特に収入変動が安定する40~50代では9割程度の予測力を持つことがわかった。一方で、収入の変動が大きい20代や引退前後の60代では予測力は6~7割程度にとどまっており、その他の情報を加えて予測力を改善する必要があるという課題もみつかった。また、足元の経済状況が予測力を改善することがわかり、特に地域別の有効求人倍率の情報を用いることで予測が改善することがわかった。この結果は、Bell, Bloom and Blundell(2022)でも示されているように、過去の情報と足元のタイムリーな経済指標を組み合わせることの有用性を示唆している。

3.3 予測の精度

このようにして予測を行ったが、その精度はどれくらいのものだろうか。実際に行った2022年度の予測の正確性は、まだ実際の数値がわからないので評価できないが、過去のデータを用いた評価を行った。具体的には、評価したい年のデータを除いたデータを用いて関数の推定を行い予測値の計算をした。その予測値がどれくらい実際の税収額からずれているのかを評価する交差検証(cross-validation)である。正確性については、3.1項でも触れた誤差率(=予測誤差/税収総額の絶対値)を用いた。提供を受けたデータ年における平均的な誤差率は多くの自治体で1%強であり、高い自治体でも4%であった。自治体における独自の予測が5~ 10%の誤差であることを考えると、予測についてはまずまずの結果を得たと考えられる。

誤差率のバラツキについては以下のような特徴があった。まずは、経済ショックの影響を予測しきれないという点である。提供を受けたデータの年にはCovid-19下である2020年のデータも含まれており、2020年の税収における予測値が2~3%まで外れるケースが見られた。また、対象の自治体に天災(震災・台風など)などの影響があった際に予測が外れやすいこともわかった。次に、自治体の規模である。規模の小さい自治体の場合、個人の税額予測における誤差の影響が集計値に大きく反映されるため、その分だけ正確な予測が難しいようだ。

3.4 データ提供自治体へのフィードバック

得られた予測の結果について、データを提供いただいた自治体へ報告資料を用いたフィードバックを行った。具体的には、図2に示されるような資料を用いて、2022年度の予測税収額を示した。税収額だけでなく、3.2項で説明した予測のアルゴリズムについても図などを用いながら可能な限りわかりやすい資料の作成を試みた。また、それぞれの自治体について過去の税収についての予測結果を示し、予測の精度の情報も報告している。さらに、政策立案や予算編成のヒントとなるよう、データ分析の際に整理した所得の情報を用いて、Covid-19による所得への影響や年齢別の所得水準の変化などの記述統計も作成した。これらの情報を1つの資料にまとめ、データを提供いただいた自治体へのフィードバックとした。

図2 自治体へのフィードバック例

4. 今後の課題

本稿では、2021年度にスタートした東京大学CREPE「EBPM推進のための自治体税務データ活用プロジェクト」における、自治体の個人住民税に関する税収予測についての取り組みを紹介してきた。最後に、税務データを活用した税収予測についての課題と今後の方向性について議論する。

4.1 参加自治体からのフィードバックの活用

本稿で紹介した税収予測についての結果を自治体に報告した後に、今後さらに政策活用に有用な取り組みとすべくアンケートを行った。参加いただいた自治体からは「精度の高い予測が有益である」という点や、「今後精度の高さが確認できれば実際の予算編成に活用できる可能性がある」という意見をいただいた。一方で、「予想していた数字から外れていた」や「従来の予測と変わらなかった」といった精度の高さについての意見もあり、一層の改善が必要であることも認識した。

参加自治体からのフィードバックの中で、特に重要な点が2点あった。1つ目は「タイムリーな結果の報告」である。初年度はデータの提供を受けたのが秋であったため、結果の報告が年明けになってしまった。自治体の予算編成は秋にかけて行われるため、残念ながら今回のプロジェクトの成果を十分に生かすことができていない。実際の自治体の予算編成などのスケジュールを把握し、タイムリーかつ正確な情報を提示することが課題として残った。2つ目は中長期的な予測である。ここまでのプロジェクトでは単年度の税収の予測にとどまっているが、「5~10年先の税収予測」に関しての要望もあった。予測は長期になればなるほど難しくなるが、それをふまえたうえでデータから中長期的な税収に関するヒントを得られるような分析も今後考えていかなければならない。

4.2 より「良い」税収予測に向けて

より「良い」税収予測に向けて、いくつか予測を改善するための方法をプロジェクト内で議論してきた。今後の税収予測において可能な改善の方向性についていくつか紹介したい。

4.2.1 推定方法の改善
プロジェクト初年度の税収予測では、最小2乗法(OLS)やランダムフォレストといった比較的シンプルな推定法を用いた予測を行った。予測方法を工夫することで、より精度の高いあるいは安定的な予測方法を構築できる可能性はまだある。たとえば、長期間のデータを活用した所得プロセスの推定(Druedahl and Munk-Nielsen 2020)や、複数のモデルから予測精度を上げるスタッキングによる予測(van der Laan, Polley and Hubbard 2007など)が方向性としては考えられるだろう。

その際に注意しなければならないのが、予測アルゴリズムのわかりやすさや透明性である(Leal et al. 2008)。Forrester(1991)も冒頭で議論するように、自治体における予算編成の材料としての税収予測は「精度」だけでは評価できない。ある予測が採用されるには、そのわかりやすさ、仮定の妥当性や再現可能性などさまざまな評価尺度があるだろう。本プロジェクトの成果が活用されるためには、予測結果が得られる過程を可能な限り説得的かつわかりやすく伝え、自治体の職員の方々に理解してもらう必要もあるだろう。どのような予測が「良い」予測なのか、いたずらにモデルを複雑にすることなく、かつ正確性を保った予測モデルの構築を、提供自治体との対話を通して進めていくことが課題である。

4.2.2 所得予測と税制を用いた精緻な税額計算
より精度の高い税収予測に向けて、予測の対象を個人の税額から所得に変えることも考えられる。プロジェクト初年度の予測では、所得ではなく個人の住民税を直接予測することを行った。この方法は、住民税額だけを予測すればよいため短期間でも従来と比較して精度の高い予測を行うことができた。しかしながら、住民税額を用いた予測には税制変更に対応するのが難しいという問題点がある。たとえば、予測したい年に税制の変更があった場合、変更前の税制下におけるデータから構築された予測関数から計算される税額は、当然実際に観測される税額とずれてしまう。このとき、個人の所得を予測するモデルをつくっておけば、予測された所得から新しい税制に従って税額の予測値を計算することが可能となる [4]。税額の予測は簡便である一方で、誤差のもととなったり制度の変更に対して脆弱であったりする。それに対して、所得の予測を行えば、税額の計算を反映させるという煩雑さはあるものの、所得の予測が正確ならばより正確に住民税額を予測できる可能性がある。それぞれの方法を試し、予測の精度と複雑さのトレードオフを勘案しながら予測アルゴリズムを改善していくことも可能である。

[4] 税制の変更による個人の行動の変化も考える必要があるが、ここでは考えていない。

4.2.3 過去の経済ショックから学ぶ
前節でも議論をしたが、過去の税額などのデータを用いた予測では、天災やCovid-19のような予期せぬ経済ショックの影響の予測が難しくなるという問題がある。しかしながら、完全に予測しきれないというわけでもなく、地域の有効求人倍率など足元の経済状況を制御することで、ある程度そうしたショックの影響を予測できることもわかった。このアイデアはBell, Bloom and Blundell (2022)からきており、彼らは過去のデータを用いてGDPと所得などから将来の所得を予測する関数を推定した。そして、その推定結果を用いることでCovid-19が所得に及ぼす影響をうまく予測できることを示し、Covid-19による所得への影響を "this time is not different" と表現している。過去の経済ショックから学ぶことで、今起きている経済ショックの影響を予測できる可能性があるのである。

自治体の税務データの強みは、さまざまな自治体のデータから学ぶことができる点である。税務データは過去に長期間さかのぼることができないため、長期的な景気の変動から学ぶことは難しい。一方で、多くの自治体のデータが集まれば、それぞれの地域に特有のショックから学ぶことが可能となる。ある地域に起こった過去の経済ショックから得られる情報は、他の地域において現在起こっている経済ショックの影響を予測できる可能性をもつ。日本には本稿執筆現在で1741(特別区含む)の基礎自治体がある。プロジェクト初年度は6つの基礎自治体における予測にとどまっているが、今後参加する自治体が増えれば、予期せぬショックの影響に対してより頑健な、精度の高い予測を行うことができるかもしれない。

5. おわりに

連載第3回となる本稿では、自治体税務データ活用プロジェクトにおける最初のステップである税収予測についての概要と今後の課題について紹介した。個人の住民税についての予測は、パネルデータである行政データの強みを生かし、過去の税額や個人の属性を用いた予測モデルの構築により、一定水準の予測精度を達成することができた。予測の精度やアルゴリズムの構築についてはまだ課題もあるが、行政情報を用いた分析が実際の政策立案や予算編成につながるよう、今年度も引き続き税収予測プロジェクトを進めている。


参考文献

橋本恭之・呉善充(2009)「税収の将来推計」『国際税制研究』22: 61-70。

Bell, B., Bloom, N. and Blundell, J.(2022)”Income Dynamics in the UK and the Impact of the Covid-19 Recession,” Quantitative Economics, forthcoming.

Breiman, L.(2001)”Random Forests,” Machine Learning, 45(1): 5-32.

Druedahl, J. and Munk-Nielsen, A.(2020)”Higher-Order Income Dynamics with Linked Regression Trees,” Econometrics Journal, 23(3): 25-58.

Feenberg, D. R., Gentry, W., Gilroy, D. and Rosen, H. S.(1989)” Testing the Rationality of State Revenue Forecasts,”Review of Economics and Statistics, 71(2): 300308.

Forrester, J. P.(1991)”Budgetary Constraints and Municipal Revenue Forecasting,” Policy Sciences, 24 (4): 333-356.

Leal, T, Pérez, J. J., Tujula, M. and Vidal, J.-P.(2008) “Fiscal Forecasting: Lessons from the Literature and Challenges,” Fiscal Studies, 29(3): 347-386.

van der Laan, M. J., Polley, E. C. and Hubbard, A. E.(2007) “Super Learner,” Statistical Applications of Genetics and Molecular Biology, 6(1).


「自治体税務データ活用プロジェクト」の最新情報については、以下の文部科学省科学研究費補助金学術変革領域研究 (B)「税務データを中心とする自治体業務データの学術利用基盤整備と経済分析への活用」のウェブサイトをご覧ください!

https://web.iss.u-tokyo.ac.jp/jichitai_data/

*本稿は、『経済セミナー』2022年12・2023年1月号からの転載です。


サポートに限らず、どんなリアクションでも大変ありがたく思います。リクエスト等々もぜひお送りいただけたら幸いです。本誌とあわあせて、今後もコンテンツ充実に努めて参りますので、どうぞよろしくお願い申し上げます。