NHK取材ノート
ガラケーしか使えないデジタル音痴だった私が「GISでデータ分析」できるようになるまでの話
新型コロナウイルスに関係する内容の可能性がある記事です。
新型コロナウイルス感染症やコロナワクチンについては、必ず1次情報として厚生労働省首相官邸のウェブサイトなど公的機関で発表されている発生状況やQ&A、相談窓口の情報もご確認ください。※非常時のため、すべての関連記事に本注意書きを一時的に出しています。
見出し画像

ガラケーしか使えないデジタル音痴だった私が「GISでデータ分析」できるようになるまでの話

NHK取材ノート

みなさん「Ctrl+C」ってご存じですか?

そう、「コピー」するときのショートカットキーですよね。

私は知りませんでした。ずっとマウスを「右クリック」して「コピー」してました。当然、ブラインドタッチなどまったくできませんでした。

周りがみんなスマホに切り替えるなかで、「使い慣れてるから」とずっとガラケーでした。そんな「極度のデジタル音痴」だったはずの私が書いた記事がこちらです。

東京の多摩川沿いの浸水リスクがある地域で、「なぜか人口が増えている」ことをデータ分析ソフトを使って明らかにして、その背景を探りました。

次にこんな記事も書きました。

南海トラフ巨大地震によって津波の浸水が想定されている区域で、高齢者の施設がすごく増えていることを示した記事です。

どちらの記事も、誰もが入手できる「オープンデータ」と、後述する「GIS」という分析システムを使って隠れた事実を浮き彫りにした、データジャーナリズムのお手本などと紹介されたこともあります。

そしてつい最近手がけたのがNHKスペシャル「〝津波浸水域〟の高齢者施設」。蓄積してきた分析のノウハウを注ぎ込んだ番組です。

「データ分析」というと専門的で、すごく難しく思う方もいるかもしれません。しかし最初に述べたように私は数年前までは、パソコンを満足に使えない、データ分析とは無縁の「ガラケー記者」だったのです。本当に。

そんな私がなぜデータ分析の道に足を踏み入れ、実績を作っていったのか。勉強の過程やそこで得たノウハウなど(そして苦労話も!)包み隠さずお話しします。

「データ分析」や「データジャーナリズム」に関心を持つ仲間が増えれば、うれしいです。

データ分析の具体的な手順を知りたい方は、こちらのマニュアル記事をお読みください。


きっかけは災害現場での気付きでした

私が記者を志したのは大学生のころです。服役を終えた人の社会復帰を支援する更生保護施設に足を運んでいて、事件や事故から「社会」を見つめる記者という仕事に興味を持ちました。

2010年にNHKの記者になると、熊本を振り出しに埼玉、岩手に赴任し、大学時代に思い描いていた事件や事故の取材や、東日本大震災の被災者の声を伝える取材にもあたりました。

いわゆる特ダネ記者ではなく、もちろんデータに強いわけでもない。パソコンのキーをたたくより足で稼ぐ、どちらかというと泥臭いタイプだったと思います。

転機となったのは東京の社会部に赴任した1年後、広範囲に甚大な被害をもたらした2019年の「台風19号」の取材でした。

当時の中継映像より。多摩地区の住宅地が浸水した
台風19号から一夜明けても増水したままの多摩川

浸水被害にあった東京の多摩川沿いで取材をしていると、新築の家やマンションから泥をかき出す人の光景が目に留まったのです。新築なのに。しかも1軒や2軒じゃない。

ここは大雨のときに、浸水が想定されているエリアのはず。なのに新築ってどういうことだろう?ここで私の中に仮説が浮かびました。

「浸水リスクエリア」に居住する人が(なぜか)増えているのではないか?

どれくらいの人が浸水リスクのエリアに住んでいるのか、広いエリアの状況をまとめて把握する方法はないか、考えました。

このときはまだアナログでした

「必要なのは浸水エリアと人口の推移が分かる資料だろう」

そうアタリをつけてネットを検索すると、浸水エリアは「ハザードマップ」、人口は「住民基本台帳」のデータがネットにあることがわかりました。

まずやったのは、「ハザードマップを印刷すること」です。

印刷したマップをテープでつなぎ合わせると、すぐテーブルいっぱいになりました。

ハザードマップに地区の人口データを書き写している

「住民基本台帳」の過去と現在のデータも印刷して、それを見ながらハザードマップ上に地区ごとに人口を書き写していきました。

すぐにあきらめました。

多摩川沿いには「●●丁目」が何千もあるのです。書き忘れ、見落としなどのミスも必ず起きます。無謀な作業を前に、早々に途方に暮れました。

無理だ・・・の図

社内の詳しい人を探しました

頭を抱えていたところで、耳に入ってきたのは「NMAPS」(エヌマップス)という、データ分析を専門とするチームの存在でした。NHKの報道局内にあると聞いて訪ねることに。

部屋に入ると、そこにはPCとモニターがたくさん並ぶ「いかにも」な光景が。それまでの経緯を話して相談したところ、

(担当者)「データがそろっていればすぐできますよ」

(私)「そんな魔法みたいなことが?」

半ば疑問に思いながらも必要なデータをそろえて(これも大変だったのですが)担当者に渡すと、本当にすぐ分析結果が出てきました。

川沿いの浸水リスクエリアに赤い点が集中していた

多摩川沿いの浸水想定区域にある908地区の、実に3分の2で人口が増えていたことが、一目で分かりました。

この図を手がかりに取材に入り、人口が増加した地区を同僚と一緒に訪ねたところ、いろいろな事情がみえてきました。

・かつて頻繁に洪水の被害にあっていた土地が、河川の改修で洪水の頻度が下がった。

・そのなかで駅が近くて利便性がよい土地で、宅地の開発が進んだ。

・宅地ができると移り住む人が増えてきた。

移り住む人の中には高齢者も多くいました。高度経済成長期に開発された多摩ニュータウンなど、山あいのマンモス団地で暮らしていた人たちが、便利な川沿いの低い土地に移り住むようになったのです。(「山を下りる高齢者」とも言われました)

取材で会った地元の男性のことばが印象的でした。

「昔はとても人が住める場所ではなく、畑や工場ばかりでした。でも最近は大きな氾濫もなく、水害の記憶はどんどん薄れていってしまった。昔から住む私たちですらそうだから、新しく移り住んだ人たちは知らないでしょう」

住民の証言や専門家の話をもとに、被害を繰り返さないためには「宅地開発や建物建設への規制」と「住民への周知」が必要だという、提言をこめた記事を書きました。

この取材は私にとって新鮮で、驚きの体験でした。

それまで「現場で足で稼いだネタから取材を進める」というスタイルしか知らなかったのが、「ネットで誰でも手に入る”オープンデータ”の分析から、現場やネタを見つける」という。そんなことができるんだと。

少なくともあのままテーブルに紙を広げて途方に暮れたままだったら、記事はできませんでした。

「これだ・・・」と思いました。

このときはNMAPSの担当者に任せてしまいましたが、自分でイチから分析ができれば、今までにない記事がもっと書けるかもしれない。そう思って勉強を始めました。

正直、「ガラケー記者」には大きな挑戦でした。ですが私にはチャレンジしなければならない、「もう一つの理由」がありました。

それは妻の持病、そして妊娠でした。

妻の持病は妊娠や出産によって悪化するリスクがありました。それでも子どもを授かりたいと、夫婦で決めていました。

出産後に妻だけ退院できない可能性もあるため、育休の取得は必須でした。

退院できたとしても妻に過度な負担がかからないようにしなければなりません。これまでのように長時間、家を空けることは難しくなります。

これまでと同じ働き方はできない。

悩んでいたところに出会ったのがデータ分析でした。

データ分析は自宅でもできます。

自分ひとりでできるように技術を身につけ、コロナ禍で広がった在宅勤務も最大限に活用すれば、家族を守りながら第一線で仕事を続けられるかもしれない。

「Ctrl+C」も知らなかった私が新たな技術を身につけられるのかという不安はもちろんありました。しかし家族を守り、取材の幅を広げる大きなチャンスでもあると決意しました。

「GIS」って知ってる?

多摩川沿いの浸水リスクの分析で使われたのが「GIS」というシステムでした。

「G」eographic 「I」nformation 「S」ystem  

直訳すると「地理情報システム」で、簡単に言うと

地図にデータを重ねあわせて分析できる便利なやつ」です。

地図の分析はさまざまな分野で使われています。

例えばコンビニ出店の戦略を立てる「エリアマーケティング」では、対象エリア内の住宅や商店、学校などの分布、世帯数、交通機関などを地図上で分析し、売上げを試算します。どれも重要なデータです。

地図に様々なデータを記入して比較分析していく作業を、紙ではなくコンピューターで行い、より早く大量に、そして正確に分析できるシステムが「GIS」なのです。

経営戦略のほかにもガスや水道といったライフラインの整備から、都市計画まで、今やあらゆる場面でGISが活用されています。

「GISを使えるようになりたい…」

という私に担当者が教えてくれたのが「QGIS」というソフトでした。GISを動かすソフトは世の中にいくつもありますが、「QGIS」は無料だから勉強にはおすすめですといわれてダウンロードしました。

すぐ壁にぶち当たりました。

“超”初心者向けのマニュアルが見当たらないんです。

「QGIS 初心者」で出てくるマニュアルは、私には呪文にしか見えませんでした。マンガで教えてくれるサイトもない。ガラケー記者にとって独学はハードルが高かった。

そこでやっぱり詳しい人に教えを請いました。

社内はもちろん、社外で業務でGISを使っている民間企業のエンジニアや、有志が集まるネットの掲示板などに、おそるおそる尋ねてまわりました。

そこで出会ったのが「地図屋」を自称する方たちです。GISに詳しい「地図屋」のみなさんは素人の私を馬鹿にしたりせず、優しく根気よく付き合ってくださいました。(その節は大変お世話になりました…)

あまりに親切なので、ある人に思わず

「なぜそんなに親切にしてくださるんですか?」

と尋ねると、こんな答えが返ってきました。

「GISはよりよい社会を作ることができるツールです。報道にもGISをもっと活用してもらえれば、これまでにない気づきが生まれ、社会のためになると思うからです」

「社会をよりよくしたい」という「地図屋」のみなさんの心意気を、その後も何度も感じる場面がありました。

2021年7月に静岡県熱海市を襲った土石流災害。発生直後から何人ものプロの「地図屋」たちがデータ分析にあたり、現地の地形データを誰もが利用できる形にして、ネットに無償で公開してくれました。そのデータは被害状況の迅速な把握と原因分析に役立てられ、NHKの報道でも活用させていただきました。

こうした「地図屋」のみなさんに助けられ、「デジタル音痴」だった私も少しずつGISに習熟していきました。

約3か月!「自力」で分析できるように

業務の合間を縫ってはGISを動かして3か月ほどすると、基本操作がある程度身についてきました。
自力で分析が可能になってくると、できる分析・できない分析と、使えるデータ・使えないデータが判別できるようになり、分析のアイデアが飛躍的に増えました。

そして技術者との意思疎通がスムーズになりました。

データジャーナリズムでは記者とプログラマーやデザイナーなどがチームを組むことが多くあります。しかし互いの理解レベルにズレがあると、ゴールまで時間がかかってしまいます。「共通言語」として記者が技術を学ぶメリットは大きいと感じました。

手応えを感じ始めたころに取りかかったのが、冒頭で紹介したこちらの第2弾の記事です。

南海トラフの巨大地震で津波が想定される、宮崎県沿岸を対象に分析した結果、津波のリスクがあるエリアで、この10年で高齢者施設が4倍近くに増えていたことがわかりました。

これは国や自治体も明確に把握していなかった事実です。

(このときのデータ分析の詳しい手順については、こちらの記事をご覧ください)


データの分析には「6つ」の段階がある


試行錯誤しながら自分の力で分析をしていく中で、私なりにデータ分析の手順にはいくつかの重要な段階があることが分かってきました。

宮崎県沿岸の高齢者施設の分析を例に説明しますと、

①仮説を立てる

最初の多摩川沿いの分析では「リスクエリアで人口が増えている」ことが分かりましたが、災害弱者といわれる「高齢者」の施設も、リスクエリアで増えているんじゃないだろうか?という仮説を立てました。
そしてリスクの中でも事前の予測や避難が難しい、「津波」のリスクエリアを調べることにしました。

②必要なデータを特定する

この仮説を裏付けるのに必要なデータは何だろう?と考えます。
津波の浸水想定区域はどこか
・高齢者の入所施設はどこか
この2つのデータがあれば分析できると「アタリ」をつけました。

③データをそろえる

必要なデータを入手できなければ、分析は成り立ちません。

今回の場合「津波の浸水想定区域」は、国交省がオープンデータのダウンロードサービスを展開している「国土数値情報」というサイトから入手できます。

「高齢者の入所施設のリスト」
は、県や自治体、社会福祉協議会にありました。日本全国だと施設数は数万にのぼりますが、今回の分析では、問題意識が同じだった宮崎局の記者とともに、宮崎県内にしぼって分析を行いました。(後に全国のデータも分析しました)

④データを整える

「整える」とは、すべてのデータをシステムで読みとり可能な形式に直すことですが、特に自治体など役所のデータだとこの作業が一番大変です。

なぜなら多くのデータが「PDF形式」だから。

「1」とか「A」とか書かれた画像みたいなものなので、自動変換ソフトなどを使って文字や数値になおす必要があります。しかし変換にはところどころミスがあるので、結局は目視で確認しなければなりません。

PDFでしか提供できません」という謎の対応は、DXで無くなってほしい文化の1つです。

もうひとつ大変なのが、住所を「緯度・経度」に変換する作業です。

GISで地図上にデータを表示するには、個々のデータに「緯度と経度」の情報が必要です。例えば「渋谷のNHK放送センター」だったら「北緯35.665」「東経 139.696」というように。

データに「住所」しかない場合、地名や番地から緯度経度を算出する「ジオコーディング」という作業をしますが、住所に「大字・小字」があったり漢数字や英数字が混在していると、たいてい見当違いの緯度経度に変換されてしまいます。これも最終的に目視で確認・修正します。

このようにデータを整える作業は、本当に手間がかかります。

⑤データを分析する

ここからは実は単純で、「空間結合」というGISの基本操作をするだけです。

施設の位置情報が津波エリア内かどうか、浸水の深さどのくらいか、数回のクリックで、自動で判定してくれます。こんなふうに。

分析結果画面(2010年の宮崎市中心部)

上の図は宮崎市の中心部について、東日本大震災が起きる前の2010年のデータをもとに分析したものです。青い部分が津波で浸水が想定されるエリアで、赤い点が高齢者の施設です。

2010年のときは数か所でしたが、2020年にはこれだけ増えていました。

県全体では、東日本大震災のあと、津波の浸水想定エリアに高齢者施設が4倍近くに増えていたことがわかりました。

さてこうしたデータ分析だけでは記事になりません。最後に大事な段階があります。そう、現場の取材です。

⑥データ分析の結果をもとに「取材する」

なぜリスクエリアで高齢者施設が増えたのか?
分析の結果をもとに、宮崎放送局の記者が現場を取材しました。

丁寧なやりとりの末、震災後に開所した宮崎市の老人ホームが取材に応じてくれました。2メートル以上5メートル未満の浸水が想定されているにも関わらず施設を建てた理由は、「コストの問題」でした。

取材に応じた施設の代表

高齢者の増加で施設のニーズが急増する一方で、高台の安全な土地の確保にはコストがかかります。施設の代表は、「地域の高齢者が年金の範囲内で入れる施設にするためには、災害リスクがあったとしてもコストを抑える必要があった」と語りました。

データの分析だけでは見えてこなかった構造的な課題。
これを解決できるすべは無いのだろうか。

データから現場、現場からデータを行き来する取材は、最初の記事を出した後も続き、3月12日に放送したNHKスペシャル「あなたの家族は逃げられますか? ~急増〝津波浸水域〟の高齢者施設~」につながりました。

全国のデータをまとめた特設サイトもつくりました。

記者がGISを学んだことで見えた景色

GISに出会ってからここまで2年あまりで、新しい思考とスキルが得られました(プロの方々にはまだまだぜんぜん及びませんが)。
それだけでなく記者としての「幅」も広がったと感じています。

これまでまったく関心が無かったGISなどの技術関連の情報への感度が高まり、以前と違った切り口からニュースや番組を提案できるようになりました。

大規模な災害が起きたとき、データから埋もれた事実を掘り起こして課題と解決方法を提示するという手法の取材は、ご紹介した以外にも取り組んでいます。

そしてデータの分析を業務の中心に置いたことで、大事なことに気づきました。それはGISを学ぶきっかけとなった「子育て」についてです。

育児とは “24時間命を守ること”

妻の妊娠が分かったあと、職場の理解やサポートにも助けられながら、半年以上かけて取材テーマをデータ分析系にシフトして、在宅勤務主体で仕事をする体制を整えていきました。

出産後、懸念していたように妻の体調は悪化して入院しました。

コロナ禍で外部の助けを借りることが出来ず、育休を取得して3ヶ月ほどは一人で子育てをしました。

わが子と

目の前の一番大切な命を前に痛感したのは、子育ては「24時間、命を守ること」だということです。

ひとりだけでの子育ては、精神的にも肉体的にも追い詰められます。私にとって救いとなったのが「お出かけ」。初めて外に出て日の光を浴びたときは、ふさぎきっていた心が軽くなり、涙が出ました。

イメージです…

晴れた日は毎日のように長女を連れて公園やデパートなどにお出かけするようになったのですが、そのときにパパだけでは入れない「ベビールーム」(授乳などができる場所)があることを知りました。

「こうしたベビールーム、多いんじゃないか」(仮説)
「男性可のベビールームの場所情報が必要」(特定)
「育児アプリの運営会社から入手」(そろえる)

・・・などと進めていって、後にこんな記事を書いてしまいました。

「データ分析」という仕事は記者としての幅だけでなく、子育てをする人をなぜひとりにしてはいけないのか、女性の社会進出と男性の家庭進出がなぜ大切なのかということを、本当に今さらながらですが、「わが事」として気づかせてくれました。

今も在宅勤務を最大限に活用して、家庭と仕事の両立に励んでいます。

データ分析で痛感する「オープンデータ」の遅れ

最後に記者としてデータ分析を学ぶ過程で気づいた「オープンデータ」の重要性と、日本の現状についてお話しします。

オープンデータとは「機械判読が可能で誰もが無償で利用できること」などが条件となっていますが、高齢者施設の分析でそうだったように、自治体や官公庁のデータにはいまだに「PDF」、機械判読が難しいデータが目立ちます。

オープンデータが「利用しやすい形式」を求めるのは、多くの人が素早く簡単にデータを入手して分析することで、課題解決のヒントが生まれ、よりよい社会を作ることが可能になるからです。

社会のオープンデータの推進をデジタル庁に期待するとともに、私たち報道機関が取材の過程で得たデータや、分析して得たデータもオープンデータとして公開して、より役に立つようにしていけないかとも考えてます。

例えばNHKがオープンデータの「ハブ」のような役割を果たす。つまり民間のエンジニアや研究者、自治体職員、学生などとつながり、分析で得られた知見などを共有し、地域の課題の解決に共に取り組んでいく。そんな好循環を生み出せたらと思います。

それにはもっと仲間が必要です。

「わたしアナログだから・・・」「文系だから・・・」

大丈夫です!

ガラケー記者で「Ctrl+C」も知らなかった私ですら、少しはできるようになったんですから、「あなた」もきっとできます。

ぜひチャレンジしてみてください。きっと違った景色が見えてきますよ!

齋藤恵二郎 社会部記者

2010年入局
岩手県の沿岸支局での勤務をきっかけに、震災取材を継続
GIS×報道の可能性を日々、探っています。

齋藤記者が手がけた記事や番組


この記事が参加している募集

仕事について話そう

みんなにも読んでほしいですか?

オススメした記事はフォロワーのタイムラインに表示されます!
次の記事もご期待ください!
NHK取材ノート
NHKのニュースや番組をつくっている私たちが取材に込めた思いや取材手法などをお話します。一緒に「取材ノート」をつくっていきましょう。サイトはhttps://www.nhk.or.jp/d-navi/note/ 利用規約はhttps://nhk.jp/rules