見出し画像

政治資金をわかりやすく見れるWEBサービスを作りました

こんにちは。東京でフリーランスのエンジニアをやってる小林ノエルです。この度、趣味(?)で作ってたWEBサービスを公開したので軽く紹介させてください。

なんと政党や政治家の資金源や、お金の使いみちがわかりやすく閲覧できるサービスです。

といってもまだ3ページしかなく、閲覧できるデータは自民党本部の2019年度のデータだけです。本当は今週末の衆議院選挙前に9つある国政政党のデータを作りたかったのですが間に合いませんでした。。。悔しい!

まずはこちらのページで2019年、自民党本部がどのようにお金を得て、どのようなところにどれだけお金を使ったのかニヤニヤしながら見てもらえればと思います。


きっかけは本当に単純な疑問からでした。ニュースや報道番組でよく「政治、特に選挙をやるにはお金がかかる!」という話を耳にします。そう、お金がかかるらしいんです。こういう事情もあってか、政治とカネをめぐる問題というのも後を経ちません。

でもいったい何にそんなにお金を使っているんだろうと疑問に思い色々調べていくうちに政治資金収支報告書というものの存在を知りました。この報告書をよくよく見てみると結構すごい情報が沢山載ってるんですよ。政党や政治家(が保有している政治団体)のお金の支出入が事細かに書いてあって、その相手の住所や場合によっては職業まで書いてあるのです。

『これはすごいデータだ!』と思ったのと同時に『これだけすごい情報量があるなら誰かまとめてる人がいるのでは?』と思い調べてみると、いるにはいるのですがこのまとめる作業がなかなか大変で、継続して活動を行えている人がいないということがわかりました。たとえば政治資金センターさんやNPO法人ドットジェイピーさんとかがこういった活動をされているらしいのですが、そのあたりの事情はこちらの朝日新聞の記事がよくまとまっています。

なぜ継続するのが難しいのかというと、全国には数万単位の政治団体があり、同じ数だけ政治資金収支報告書が存在しデータ量は膨大なのですが、そのすべてが紙をスキャンしただけのPDFデータなので実態としてはアナログデータなのです。きちんとデジタル化されたデータでなければ集計や分析作業はできないわけです。

なので上で挙げた団体の方々は手作業でこれらをデジタル化する作業をされていたようですが、膨大な時間とお金がかかることは容易に想像できます。

でもちょっと待てよ、この問題ってテクノロジーの力で解決できるのでは?と思って、まさに自分が持ってるスキルセットでも十分にチャレンジできそうな領域だったのでやってみるか!2021年は衆議院選挙、2022年は参議院選挙があるので時期的にも今しかないだろ!と思い趣味プロの一環で開発を開始しました。

少し技術的なことを書いておくと、政治資金収支報告書をOCRして、その結果をまとめて(構造化して)DBとかにいれて、それをWEBとして表示する、という内容のプログラミングをするわけですが、やってみると色々なハマりポイントがありました。今回OCRエンジンはオープンソースのtesseractというものを使ったのですが、そのままでは精度は決して良くないのでtesseractを学習させる必要があり、どのようなデータやパラメータで学習させ、どのように精度を評価するかといった機械学習系のノウハウが求められるところはなかなか大変でした。また、どれだけ精度をあげても100%の精度でOCRできるわけではないので読み取れた結果をさらに正しいデータ(議員名や法人名)に予測変換する部分もかなり試行錯誤を繰り返しました。もっと言うと、政治資金収支報告書の各ページ内のどこにどのデータがあるのかを判定するのも骨が折れました。

こういった技術的な課題も1つずつ潰していってなんとか自民党1党分ではありますが、すべてのページを読み取り、結果がある程度正しそうだということが確認できるまでには開発が進みました。前述のように、本当は衆院選前までに9党分作りたかったのですが私の力不足でそこまでは及びませんでした。しかし自民党のものだけでも十分面白いデータだと思ったので今回公開することとしました。

衆議院選挙の後にはなりますが、残りの8つの国政政党、及び全国津々浦々にある政治団体の収支報告書を読み取れるよう引き続きプロダクトの開発を続けていこうと思うので、どうか暖かく見守って頂けると嬉しいです。

来年の参議院選挙前までにはもっと進化した姿をお見せできると思うのでご期待ください!

この記事が気に入ったらサポートをしてみませんか?