見出し画像

データ報道広げる好循環目指して──現場との連携から生まれる独自記事

日本新聞協会の会誌「新聞研究」2024年6月号に掲載頂いた文の原稿です。「データと公開情報の力」という特集の一部になりました。

データ報道のいいところは、瞬発力と独自性にある。自分でデータを調べれば、プレスリリースを待ったり、社外のだれかに頼んで分析してもらったりせずとも、記事を出せる。

朝日新聞にはデータ報道の専門チームが2021年4月にできた。私は当時からのメンバーの一人で、3年目の2023年度は朝刊1面に記事を6回載せることができた。右往左往しながらも、ことをうまく進めるコツや、気をつけるべき落とし穴のようなものが、何となく見えてきたような気がしている。

たとえば2023年8月に出した、「最も暑かった7月」という見出しの記事。気象庁が基準としている15の観測所での7月の平均気温が、この年は約120年の観測史上で過去最高となり、1978年の記録を45年ぶりに更新したことを紹介した。

2023年8月2日付朝日新聞朝刊1ページから

暑さの分析は気象庁もやっている。プレスリリースを待って記事を書くこともできたとは思う。

が、気象庁のウェブサイトでは気温のデータが日々公開される。私はこれを見て集計を続けていたので、史上最も暑い7月になることは、その月の下旬にさしかかるころには分かっていた。

予定稿をつくり、気候変動問題を扱う他部署も関連記事を用意。8月1日組みの朝刊に載せられた。気象庁の発表が出てから記事を書き始めていたのでは、あのような紙面は作れなかったと思う。

記事では気温を青から赤までの色で表した「ヒートマップ」を活用して、過去と比べて暑い夏が近年増えてきていることも示した。こうしたインフォグラフィックは気象庁からは提供してもらえない。独自の分析に挑戦したことで、初めて可能になった表現手法だ。

この手法の「元祖」は現グーグルの荻原和樹さんだ。東洋経済新報社にいた2018年に取り組んでいたのを、以前から見ていた。これにならって暑さの可視化に取り組んだのは、私たちだけではない。読売新聞や西日本新聞、愛媛新聞、福井新聞、東京新聞……。2023年は報道各社にとって「ヒートマップ元年」だったと言えるかもしれない。

2024年2月の「再エネ、45万世帯分無駄に」という記事も、発表に頼らない報道だった。太陽光と風力による発電を一時的に止める「出力制御」と呼ばれる措置が2023年に急増し、全国で45万世帯分の消費量にあたる電力が使われずじまいになったことを紹介した。同僚から声をかけられて、電力各社のデータを独自に集計したものだ。

この同僚は、太陽光発電が広く普及している九州で電力の取材を担当していて、2023年の出力制御は間違いなく過去最多になると知っていた。待っていれば政府の審議会などで発表されたはずだが、自らデータを調べれば先んじられると考えて、声をかけてくれたようだ。

データ報道をする記者にとって、こうした「現場」を持っている記者と力を合わせることはとても役に立つ。どこにどんなデータがあり、そのデータから何が言えそうなのか、彼らはよく知っているからだ。現場の記者から「ここを掘ってくれ」と言われて、スコップを持ったデータ報道記者が駆けつける。こんなコラボが広がると、コンスタントに記事を出していけそうな気がしている。

専門知識を持った研究者らに協力してもらうことも大切だと思う。素人の独自分析は初歩的な解釈の誤りなどで、トンチンカンな方向に転がるのが怖い。専門家の導きがあれば、その危険性をとりのぞけるからだ。私は暑さの分析でも、気象庁の専門家に監修役をお願いした。

さらに慎重にことを運んだ「危ないネタ」もあった。たとえば2023年5月に出した「コロナ下、国内死者13.5万人増」という記事だ。

新型コロナウイルスによる死者とは報告されていなくても、コロナ感染後の後遺症や医療の逼迫などが原因で亡くなった人がいる。間接的なものも含めて、広い意味でコロナの影響による死者がどれだけいたのかを、具体的な数字で示そうとする記事だった。2020年以降の3年間での死者数が、コロナの流行がなかった例年から予測される数値と比べて計13万5千人多かったことを報じた。

ただし、新型コロナに関しては多くの専門家がさまざまな分析をしている。素人の新聞記者が何かを言うのは容易ではない。少しでも誤った表現があれば大けがになる危険性も十分にあった。

「3年間で13万5千人」といった、見出しにとりやすいシンプルな表現をしてしまってよいものかどうか、元となるデータを公表している厚労省研究班メンバーと議論をした。やりとりを繰り返し、死者数の推移を可視化したインフォグラフィックの試作品をお見せしたことで、納得してもらえた。掲載した記事は、SNSで感染症の専門家から肯定的なコメントをいただけた。

2023年6月の「熱中症、涼しい地域ほど注意」という記事でも、専門家の批判に耐えられるように気をつかった。

分析したのは、総務省消防庁が公表している全国の熱中症搬送者約79万人のデータだ。夏場の気温が低い北海道と東北の4県では、最高気温がたとえば同じ35度の日だとしても、暑い地域と比べて熱中症のリスクが約2倍。暑さ慣れしていない人ほど危ない、というわけだ。

統計分析では都道府県別の緑地の多さや住民の収入など、さまざまなファクターと搬送者数との関連を調べた。もっとも顕著な関係が見えたのが夏場の気温だった。熱中症に詳しい研究者に監修をお願いし、分析の手法とともに結果を説明した。驚くほど熱心に相談に応じてもらえたし、学術的な知見とも矛盾がない旨のコメントもいただけた。不安なく報道できたのは、こうしたプロセスがあったからだった。

ただ、役所などが公開しているデータには、扱いにくいものもある。そうなると、一筋縄ではいかない。

たとえば2022年8月に出した「教団施設ある自治体、自民・井上氏の得票増」という記事。安倍晋三元首相の殺害事件をきっかけに注目が高まった「世界平和統一家庭連合(旧統一教会)」と、安倍氏の元首相秘書官で教団の「賛同会員」だった井上義行参院議員の関係を、得票の面から分析したものだ。旧統一教会が「家庭教会」という施設をおいている自治体では、施設がない自治体と比べて、2022年参院選で井上氏の得票が前回2019年の選挙と比べて顕著に増えているという結果で、教団の支援が政治家に具体的な利益をもたらしている可能性を指摘した。

得票数は国民に広く公開されるべきデータだろう。実際、総務省のウェブサイトでダウンロードできる。

ただ、これが「使えない」データだったのだ。

エクセルのファイルが都道府県ごとに別のページに載っているので、全部ダウンロードしようと思えば47回、同じ作業をしなくてはいけない。別の年にあった参院選のデータがほしければ、さらに47回。ファイルの中身をみると、今度は政党ごとにシートが分かれている。

一つ一つコピペするのは手間がかかりすぎるし、単調な作業でミスも起きそうだ。仕方なく、朝日新聞社内にあるデータベースを使うことにした(こちらも使い勝手がよいとは言えないが、総務省のものよりはだいぶマシだった)。

例をもう一つ。東日本大震災の被災地で少子化が進んでいることを示す記事を2023年3月に出した。根拠にしたのは、5年ごとに行われる国勢調査だ。

扱いに困ったのは、人口を500メートル四方のマス目ごとに示したデータだった。2015年と2020年のものはネットからダウンロードできたが、比較対象にすべき震災前、2010年のデータが見当たらなかった。

総務省にきくと、統計局の図書館に「原本」があるという。足を運んでファイルをコピーさせてもらったのだが、開いてみて愕然とした。縦横それぞれ160、計2万5600個のマス目がある巨大なシートが現れて、数値が入っているマス目の配置を見ると、まるで牡鹿半島のようなかたちが見える。

なんだこれ……? どうやら、地理的な配置がそのまま、シートの中で物理的に再現されているらしい。

総務省統計局の図書館が保管している国勢調査の「原本」

地図のうえに数値を書き込んでいた時代の名残なのだろう。人間には見やすいのかもしれないが、これをそのままコンピューターで読み込んで分析することはできない。手作業でシートをコピーして、それぞれのマス目のIDのような記号を加えて保存する。子どもや高齢者、外国人といった項目ごとに、同じ作業を十数回繰り返す。カチカチ、カチカチ、カチカチ……。心はからっぽ、目は血走っていただろう。

とはいえ実は、こうした扱いにくさを乗り越える方法を、私はだんだんと見つけてきている。「R」というプログラミング言語でデータの分析をしているのだが、このツールをデータの収集にも使えるようになってきたのだ。

自分の力だけではできなかった。大きな助けになったのが人工知能(AI)だ。

たとえば総務省が選挙結果を公表しているサイトのURLを集めてきて、各ページにアクセスしてファイルをダウンロードし、そこから必要なデータだけを集めてくる。こうした単純作業を人間がやるなら忍耐力と注意力が必要だが、プログラムで自動的にやってもらえるなら簡単だ。

そういうプログラムを書くときに、話題の生成AI、ChatGPTを大いに頼った。私の仕事はもはや、AI抜きには考えられない。

もう一つの朗報が、他部署との連携が広がってきたことだ。

前出の新型コロナや夏の暑さなどに関する記事は、古巣の科学医療部時代に一緒に仕事していた同僚たちと手がけたもの。気軽に声をかけあいやすい素地があった。

一方で、「コロナ交付金、何でもあり?」という見出しで2024年3月に出した記事は、経済部の記者とのコラボによるものだ。政府が新型コロナ対策のために設けた交付金のデータを分析し、キャンプ場のWi-Fi整備や和式トイレの洋式化など、本当にコロナ対策といっていいのか首をかしげたくなるような数々の事業に国費がつぎ込まれていることを明らかにした。

協力を頼んできた記者とは、面識はなかった。データ報道の「雑談会」という、部署の壁を越えて社内の誰でも参加できるオンラインの定期ミーティングを通じて、つながることができた。

記事を出すことで、データ分析をできるチームがいることを知ってもらう。そうすれば、声をかけてくれる人がさらに増える。記事が出ればもっと知ってもらえるだろう。

朝日新聞の社外でもこうした好循環が広がれば、なおうれしい。「新聞研究」に記事を書かせてもらうことが、その一助になればと思う。


この記事が気に入ったらサポートをしてみませんか?