見出し画像

データはよく探してから使え!思わぬところにあるものだ。 データアナリストへの道#7

デジテック for YAMAGUCHI 運営事務局 兼 Y-BASEスタッフのハラマルです。いよいよ来週に迫りましたね。「レノファ山口v.s.ヴィッセル神戸」が山口市で開催されます!あんな選手やこんな選手が「みらスタ」に来るかもしれない(来ないかもしれない)というワクワクが。。。あれ、?私の周りでは私が煽っているだけであんまり盛り上がっていないのかな?と思っていたら、昨日のチケット販売開始時間には一部のコンビニ端末に行列ができていたようですね。どのくらいの入場者になるのか、というのも楽しみです!

思わぬところにあったデータ

さて、先日、市町別の死因分析をしましたが、その際、該当するデータが見つからず、最終的には、全国統計の「報告書非掲載表」で見つけたデータを加工しました。結構苦労しました。2回にもわたってしまいました。

ところが、この記事を見たスタッフの一人が教えてくれました。

「ハラマルさん、最初にデータをあさっていた山口県庁HPの保健統計年報に、市町別の死因データがありましたよ。」
「え!?私が苦労して作ったやつ?」
「はい、多分。多分というのは、集計の仕方が違うので一致しているかどうかわかりませんけれど。きっと同じだと思います。」

どーゆーことでしょうか?
早速、最初に見たサイトを確認してみます。

ここに、「人口動態」という項目があり、その中の「死亡」にある表を見てみたのですが、データが扱いにくそうだったので諦めて、全国統計からデータを探してきました。

「いや、『死亡』の項目じゃなくて、『人口動態』の中の『総覧』を見てみたら、まさに、市町別の死因順位があったんですよ。」
え~!?そうなの?教えてもらった表がこちら。

第8表 死因順位(5大死因)、市町別 令和2年

・・・確かに。死因に関するデータは、「死亡」という項目以外に、「総覧」という項目にもあったのですね。・・・総覧って?
う~ん、私の苦労は何だったんだ。表の構成の解説とかあれば分かったのかもしれませんが、これは気づきませんでした。罠ですかね?

これもまたデータをオープンにしていく際の課題でしょうか。データ同士の関連性が分からず、いろんな表が載せられているので、探すのに苦労し、これかな?と思って苦労して作業したら、違うところに必要なデータがあったことが分かるという・・・。

とくひささんが教えてくれたAI機能でよく探せばよかったです。

気を取り直して答え合わせにチャレンジ

しかし、終わったことは仕方ありません。
Excelを加工した経験は無駄にはならないだろうということで、ここで気を取り直し、なんだ、そのデータがあるんであれば、私が作成したグラフと答え合わせをしてみましょう。

まず、前回、私が作成したグラフはこちらです。

2020年市町別・死因別死亡数(10万人あたり)山口県

これと、先ほど見つけたExcel表とを見比べてみると、まず、がんは一括りにされているようです。また、男女別はないようです。それから、市町別に死因の上位5位までが表示されているようです。
これに合わせた表に変更して、比較してみましょう。

まず、がんの一括りは、元々、「全がん」のデータがあったので、そちらを表示し、「○○がん」といった細区分は非表示に変更します。
いや、「非表示」ではダメですね。表示されないだけでデータとしては生きているようです。後で上位5位に絞ったときに、5位が空欄になってしまいました。ここでは「対象外」を選択する必要があったようです。

次に、男女別は色で分けていただけなので、その設定(フィルター)を外すだけでokです。
これは簡単にクリアできました。

続いて、市町別に上位5位だけを表示するように変更したいのですが、これはどうするんでしょうか?
ネットで検索してみても、私が作りたいと思っている表とはスタイルが違っているので、そのまま使えそうにはないようです。
仕方ないので、試行錯誤してみます!

市町名を縦に並べたいので、「行」に設定します。
死因別の死亡数が多い順に横に並べていきたいので、死亡数のデータを「列」に設定します。
そして、この列に設定したデータを選び、計算フィールドを「ランク」に、また計算するディメンションを「死因」に設定します。後は、データの種類を「連続」から「不連続」に変更します。自分でも、何の設定なのかよくわからないままです。

死亡数の計算フィールドの設定

そして、これをフィルターにかけて、上位の5位まで表示するように設定します。おっ、なんとかうまくいっているようです。だんだん近づいてきましたよ。

さて、残りは「割合」です。特にExcelには説明文はありませんが、どうやら、市町別での、死亡数総数に対する、その死因での死亡数の割合のようです。
これが本当に苦労しました。というのも、最初にトライしてみた方法だと、正解の2倍くらいの数値が表示されました。え?どういうこと?いろいろ考えてみると、私が作成したデータは男女別の数値が入っています。単純に割合を出していくと、男性分の割合と女性分の割合が計算され、その合計値が表示されていたのです!
なんでこんな数値が出るんだろうか?とか、もしかして(そんなはずはないのですが)答えの方のExcelの方が間違っているのか?とか、いろいろ疑ったのですが、算出された誤った数値を逆算していって、この原因に突き当たりました。分かったときは、そりゃそうだ、と納得。気づかなかった自分が恥ずかしいです。

というわけで、割合を算出するための計算フィールドを新たに作成しました。

死因ごとの割合を算出する計算フィールドを作成

おー、ようやく答えと一致しました。
後は、見やすくなるように色などの演出を加えました。
それがこちらです。今回見つけたExcel表と比べてみましょう。

Tableauで作成した市町別の死因上位5位
Excelで公表されていた市町別の死因別上位5位

おー!どうやら一致しているようですね。安心しました。
Excelの方は実数の記載がありましたが、人口比で見たほうが分かりやすいかと思い、Tableauの方は10万人あたりの死亡数を棒グラフで表しています。実数は詳細表示できるようにしていますので、カーソルを合わせると表示されます。

実は、ここにたどり着くまでにかなり苦労しました。特に、上位5位までを表示する設定のところや、思った通りのビジュアルにするのに、かなり作業しては元に戻しを繰り返しました。
さすがに、知識がないのに感覚的にツールを操作して思った通りに仕上げるというには無茶があったかもしれないです。今回は、Excelに寄せようとしたのでかなり時間を要してしまいました。

結論

さて、結果的には、私が全国統計から探してきたデータから作成したグラフで、県HPにExcelで公表されていた表と同じようなものができました。(データソースが同じであれば当然の結果だと思います。)

ただ、最初からこのExcelの存在に気付いていたら良かったのかというと、そうでもないように思います。
というのも、今回発見したExcelも、このビジュアル(市町別上位5位)として見せることを目的として作成されたものなので、これとはちょっと違う見せ方をしたいとか、追加で分析してみようと思うと、このデータだけ、あるいはこのデータ形式では難しいと思います。上位5位以外のデータや、人口データなどが必要になってきますので、そうすると前回に用いたデータが必要だったと思います。

ということは、データをオープンにする際には、データを使った分析(今回の場合は上位5位のExcel)とは別に、データソースを全て公開してくれるといいのかもしれません。
そして、なるべく、分かりやすい場所にデータを格納しておいてほしいです。

データをオープンにしてくれていること、また、それを使った分析をしてくれている時点で、大変有難いのですが、データを使って分析しようとしている人のために、そうした配慮をしていただける世の中になるといいですね。

この記事が参加している募集

最近の学び