【エンジニア長期インターン報告】#02政治資金収支報告書のデジタル化
はじめに
ご覧いただきありがとうございます。本noteでは、数ヶ月に渡り共同通信で行った開発の体験記を書き連ねていきます。
取り組んだテーマやその感想だけでなく、苦労したことやインターンを通して得た共同通信に対する印象など、肌で感じた「リアル」を大学生目線で伝えていきたいと思います。
共同通信をよく知りたいという方に対して、主にエンジニアという切り口から理解を深める材料の一つとしてお役に立てますと幸いです。
自己紹介
東京都立大学大学院に通う成田省吾と申します。今は修士一年生で、情報科学を専攻しており、大学院ではオンライン上のエコーチェンバーに関する研究を行っています。
インターンシップには10月 ~ 1月中旬まで、週1回程度のペースで参加しました。
学部から情報系を学んではいたものの、エンジニアとして企業にインターンをしていた経験はなく、個人開発で少しWebアプリケーション等を趣味として作成していたりしました。
応募のきっかけ
私はエコーチェンバーの研究をしており、ニュースやメディアの活動に興味を持っていました。
エコーチェンバーに関してざっくり説明しますと、例えばSNSで好きなユーザ(自分と趣味嗜好が同じユーザー)ばかりと繋がっていたら、自分が好きな情報や同じ意見ばかりが目に入ることになります。一部の情報ばかりしか見えなくなる状態になり、そのコミュニティの中で意見や思想が先鋭化していってしまう事態になりかねません。これをエコーチェンバーと言います。
研究を進めていくうちに、ニュースを作る現場を知りたい、現場を知ることで何か有用な知見を得られるのではないか、と思うようになりました。
また、就活を意識し始めた時期でもあり、私はエンジニアとしてのキャリアを歩みたいと考えていたので、実際にエンジニアとして企業で働く経験をしてみたいと思っていました。
上記2つの思いを満たせるのが、今回の共同通信社での長期エンジニアインターンであり、魔法のスプレッドシートにて募集を見かけた際には迷わず応募をしました。
取り組んだテーマ
今回の長期インターンにて私が取り組んだテーマは
政治資金収支報告書のデジタル化 です。
政治資金収支報告書とは・・・
つまりは政治家のお財布事情を国民に公開している書類になります。
これを見れば政治家のお金の流れが把握できます。記載漏れで政治資金規正法違反疑いなど、よくニュースになるあの書類です。
背景
ただ、この収支報告書は紙媒体のみでの公開です。データとしては写真しかない状態で、文字のデジタル情報はありません。
そこで、共同通信社では社内プロジェクトとして、OCR(写真から文字起こしをする技術)を用いて文字を抽出し、収支報告書の文字による一致検索ができるシステムに取り組んでいました。私が入ったときにちょうどそのシステムが完成したところでした。
それでもそのシステムでは、検索結果は検索単語を含む書類の写真データであり、お金のやり取り(誰から誰へ、いついくら)をデジタルデータとして得ることはできませんでした。
お金のやり取りをデータ化することができれば記者の方々の業務の手助けになるので、今回このテーマに取り組むこととしました。
実装
以下の3段階で実装計画を考えていました。
1. お金の流れデータの抽出
2. 1の結果の検索、可視化
3. 一般ユーザ向けのシステムとしてのデプロイ
最終的には2.の段階までしかやることはできなかったものの、ある程度形になるものにはできたと思っています。
お金の流れデータの抽出
先述の通り、写真から文字情報は取得できているので、文字同士の関係をルール化できれば目的のデータが得られます。ただし、あくまで現状あるのは文字の情報(座標など)だけであり、その文字列がどこで区切られているのさえわかりません。
そこで、表の枠線を抽出し、枠線と文字の座標情報を組み合わせることで目的のデータを取得することとします。
例えば上記画像であれば、
といったようなデータを取れるようになりました。
お金の流れデータの検索・可視化
目的のデータが取れたので、このデータをどう扱うかが次のステップです。
取材に利用できるツールとして、お金のやりとりの検索機能をテキストベースで作成しました。単純な検索機能に加えて、その流れを可視化するなど分析用途に使うことも考えられます。
そこで次のステップとしては、お金の流れデータをグラフ形式で保存することとします。グラフといっても棒グラフなどではなく、いわゆるネットワークです。
こうしたグラフ形式にすることによって、分析が容易になります。
一部の政治団体だけを切り取って可視化するなど、さまざまな分析をすることができます。もちろん任意の政治家が関わるものだけの検索等も高速に処理できます。
用途
元々は、記者の方の業務の手助けをする用途でしたが、現状そこまで負担軽減に繋げられていないと思います。
というのも、この抽出したデータが100%正しいというわけではないからです。OCR(写真からの文字起こし)や枠線の抽出などはどうしても誤認識が出てしまいます。
そうなると、金額や名前がおかしくなっていたり、そもそも取り逃しているお金のやり取りがあると思われます。
今回の取り組みによって、対象データを自動的に出力できるようになりましたが、結局最後はミスや漏れがないか人手で確認する必要があります。
精度が100%でないという理由から、可視化でざっと全体像を掴んだり、おかしいところを見つけるような分析用途が現状適していると思われます。
感想
インターンを通しての感想
まず、最終的に人に使ってもらえる状態にまで持っていけなかったのが悔しいところです。
記者の方にお話を伺い、求めていることやアドバイスをいただきながら進めるという貴重な経験をしました。それにもかかわらず、期間的な理由で最後にちゃんとシステムとして完成するところまで持っていけなかったのが申し訳ないです。
また、扱うデータ量が多い上に、綺麗ではないデータだったことに苦労しました。データの前処理、正規化に時間を取られ、思うように進められなかったです。
それでもメンターの方をはじめとして、みなさん親身になって話を聞いてくださり、とてもありがたかったです。
共同通信に対する印象
最初はお堅いところかと思い、少し身構えていた部分もあったのですが、実際は真逆でした。雰囲気はゆるいです。
記者の方って自由な生き様なイメージありませんか?僕にはあります。そのイメージのままって感じです。みなさん優しいのも相まって、余計雰囲気が緩く感じたのかもしれません。
ただそんな雰囲気の中でも、記者の方は誇りを持っているなとも感じました。自分の分野について話すときは、はっきりと信念を持っているのがひしひしと伝わってきて、誇りを持って仕事をしている姿がかっこよく見えました。
おわりに
今回のインターンでは、本当に多くのことを学ばせていただきました。
特に、このような通信社で記者の方とお話しながらエンジニア業務をできることはとても貴重な経験です。もし、メディア等に興味があってエンジニアを考えている学生の方がいましたら、確実に良い経験になりますので是非応募してみてください。
また、共同通信全体として雰囲気が良く、皆さん優しいのでおかげさまで楽しく過ごすことができました。
この場を借りて、今回のインターンにて関わってくださったみなさんに感謝申し上げます。
この記事が気に入ったらサポートをしてみませんか?