見出し画像

市町別死因分析②心疾患や老衰が増加 データアナリストへの道#4 

デジテック for YAMAGUCHI 運営事務局 兼 Y-BASEスタッフのハラマルです。昨日のレノファ山口の試合は大興奮でした、ね?試合終了間際のラストプレーで逆転勝利!維新みらいふスタジアムでの劇的展開、いわゆる「維新劇場」で、私の後ろに座っておられた高齢のご夫婦も思わず立ち上がっての大盛り上がりでした。私も健康に気を付けて、長くレノファ観戦を楽しみたいと思います。

さて、前回はデータの探索と整理で悪戦苦闘してしまいました。いよいよ、今回は分析作業に着手してみます。

まだ残っていた準備作業

分析に取り掛かろうと思ったのですが、前回の作業で「人口10万人あたり」を算出するために人口データを入力しました。
各項目の死亡数は実数になっているので、これから、各項目の人口10万人あたりのデータをつくっていきます。

紆余曲折あったデータ整理の結果、各行に、死亡数の実数と、国勢調査確定人口値が入っていますので、死亡数から「計算フィールドを作成」して、数式を入力してみます。
あれ、今回はこれで作れそうだけれど、データ整理の仕方が違った場合はどうなるのかな?という疑問が生じましたが、それはそのときに考えることにします。もしかしたら、今回は、データ整理で右往左往したことが結果オーライになっているのかもしれません。
それとも、やっぱり無駄な迷走だったのかもしれません。この辺りの真理にたどり着けるのはいつのことやら・・・。

計算フィールドの作成(人口10万人あたりの死亡数を算出)

さて、計算フィールドは、このようなカンジで、新たなデータ項目「死亡数(10万人あたり)」が完成しました。計算フィールドといっても、既にあるデータ項目はドラッグアンドドロップで操作できるので、非常に便利です。
分析は市町別にしてみたいので、人口規模に左右されないよう、これ以降は、実数でなく、こちらの数値を扱うことにします。

それから、準備作業がもう一つ。「死因」の項目に入っているデータが、例えば「Se02 悪性新生物<腫瘍>」となっています。頭の部分は分類上の記号だと思いますが、その後の名称が分かりづらいですね。
他の医療データ分析などを見てみて、分かりやすい言い方に替えていきます。上の例だと「全がん」、つまりがん全体の数字のようです。
この名称変更、Tableauだと元々のデータソースの項目名を修正せずに、「別名の編集」ということで操作できる点が素晴らしいと思いました。
データソースをいじってしまうと、「あれ?元データってどうだったっけ?」というときに確認できなくなってしまいますもんね。

さて、このあたりで事前準備完了です。前回のデータ整理と合わせて、かなりの労力を要しました。
「データ分析は、前処理が8割」とか聞きますが、だとしたら、残りの作業量は2割くらいでしょうか。ゴールまでもう少しですね。

マッピング

それでは、分析開始です!
まずは、私の大好きな!マッピングから挑戦してみます。
データ項目に市町名が入っているので、これに「地理的役割」を与えるだけで、マッピングができます。

次に、「フィルター」機能を使ってみます。
項目「年」をセットして、直近の2020年だけ選ぶことにします。
「死因」もフィルターにセットします。どの死因を選ぼうかなと思いましたが、自分の体型を考慮し、肥満が大きく影響しそうな死因として「高血圧性疾患」と「糖尿病」に絞って、2020年の人口10万人あたりの死亡数を見てみます。
さて、その結果はこちらです。

2020年市町別の10万人あたり死亡数(死因:高血圧疾患・糖尿病)

あら、一部の地域に高い数値がありますね。これ、地域的な要因があるのかな?と思いましたが、次のグラフを作って気が付きました。そういうことではなさそうです。理由は後ほどご説明します。

Tableauの魅力は、簡単な操作で違う分析ができることですが、例えば、このフィルターを編集し、「年」を2010年を選ぶとこう変わります!
やはり、一部地域に値が高いところがあるようです。
もちろん、セットしたフィルターの「病因」を変えることによって、違う病因での分析も可能です。

上の図の条件を2010年に変更したもの

市町別棒グラフ

次に、死因がたくさんあったので、それごとに、市町別でみてみたいと思います。作ったのがこちらです。

2020年市町別・死因別の10万人あたり死亡数(男女別)

人口10万人あたりの死因別を市町別に並べたものです。
これを見て気が付いたのは、さっき分析した高血圧性疾患や糖尿病は、全体として数が少ないことが分かります。なので、1人、2人という少数でも、市町別に比べた際には大きな影響になっていたのではないかと思われます。マップ上では地域的な特徴があるように見えましたが、全体としてみれば大きな地域的な差はないように思われます。これが、先ほど、間違った分析をしてしまいそうになった部分です。

いや、先にこっちから作れよ、という話ですね。そうですね、まず、マクロから見ないといけませんでした。自分の興味とマッピングに惹かれて、最初に手を出すところを間違えてしまっていました。反省です。
失敗が勉強になります。

気を取り直して、改めてこの表をよく観察してみると、山口県の死因で最も多いのは心疾患(高血圧性疾患を除く)のようですね。多くの市町ではオレンジと青の四角の大きさが同じなので男女比が同じくらいですが、上関町では女性の方が男性の2倍くらいの割合になっているようです。
また、長門市・周防大島町・上関町では肺炎が、萩市・美祢市・周防大島町・和木町・上関町では老衰が、それぞれ全体の割合の中で比較的多いという特徴もあるようですね。

ちなみに、右下の「19個のNULL」は、男性・子宮がんの19市町分が対象外のため、こんな表示が出ているんですが、これ、統計上、どう処理していいか分からず、こうなっています。0を入力するのも違うしなぁと。この辺、もっと勉強が必要です。今は問題を保留して作業を進めます。

ダンベルチャート

そして、次は、経年比較にチャレンジです。
Y-BASEで実施したTableauワークショップで見た「ダンベルチャート」というものがとても印象に残っているので、これを作ってみようと思います!

と、安易に思ったのですが、グラフの種類に「ダンベルチャート」があるわけではないようです。探してもみつからないのでネット検索してみると、結構複雑な作業が必要なようです。くぅ~、またしても自分を苦しめる思いつきであったことを後悔。

ざっくり言うと、ダンベルチャートは、2つの値と、それらの差の値、合計3つのデータを同じ表に落とし込み、色や形を変えてダンベルっぽく見せるものです。
ざっくりしすぎて分かりませんね。順番に作業していきます。

まず、同じ表に2つの値を落とし込みます。今回で言うと、2020年と2010年の値です。そして、それぞれ色を変えて○で表そうと思います。
と簡単に言いましたが、これが結構大変なんです。というのも、2020年のデータは赤、2010年のデータは青、といった指定をできるわけではないからです。フィルターをかけちゃうと、どっちかのデータしか表示されませんし。
ではどうするかと言うと、(ネットで調べてみて分かったのは、)2020年のデータだけを抜き出して取り扱うデータを作成します。ここでは、「2020死因」と名付けてみます。それがこちらです。

2020年だけのデータフィールドを作成

この計算フィールドで作成した「2020死因」は、2010年・2015年・2020年が入り交ざった中から2020年分だけを拾ってくることができます。これと同じことを2010年も作業します。

次に、これらの差を算出するデータ(計算フィールド)も作成します。これは、後で細い棒で表す部分になります。

これで3つの値が準備できましたので、後は、これを同じ表に落とし込みます。2020年・2010年のデータは〇で色を変える、差分のデータは細い棒に変更します。完成形がこちら。

死因別死亡数(10万人あたり)の比較2020年-2010年

ダンベルの形をしていますよね?ダンベルチャートをご存じなかった方のほとんどは、ここでようやくどんなものかご理解いただけたかと思います。長~い説明ですみませんでした。
2010年(青丸)から2020年(赤丸)に10年間で推移したことを表しています。

一番大きく変動しているのは、棒の部分の長さで分かるので、「老衰」であることが分かります。また、2010年に最も多い死因であった「心疾患(高血圧性除く)」も大きく増えていることが分かります。
伸び率としては、どっちが大きいのかな?というのは、この表からではわからないので、ついでに作っちゃいましょう。

右側に増減率を追加

グラフの右側には、増減率を表してみました。
あら。増減率で言うと、「高血圧性疾患」が一番増えているようです。

もう一度グラフを見てみると、2010年の上位を占めていた死因のうち、心疾患(高血圧性除く)は増えています。それ以降の病気は減少傾向にあるようです。医療の進歩や検診による早期発見などがあるのかもしれません。
また、先ほど分かった老衰が大きく増えたのは、病気で亡くなる方が減った結果なのかもしれませんね。
また、死因全体の割合としてはまだ大きくなっていませんが、膵臓がん・乳がんなどは増加傾向にあります。最初に調べた高血圧性疾患や糖尿病も増加傾向にあるので、要注意です。(ハラマルさん、要注意)。

さて、ここで私に医学的な知見があれば、「コレはアレが理由では?」という仮説を立てて、さらに別の分析を行えるのですが、それは無理なので、今回はここまでにしようと思います。

それと、実は、今回、2020年・2010年の他に、間の2015年もデータを取ったので、5年ごとの推移を作ろうとしたのですが、3点間のダンベルチャートは作れないようでしたので断念してしまいました。悔しいっす。

ツールを使いながらデータアナリストのスキルを身に着けていくというこの企画。今回は、データの検索から整形、ダンベルチャートの作成などが体験できましたが、結構苦労しました。
ゆる~く進めていくつもりが、いきなりレベルアップしてしまいました。ただ、まだまだ、大切な基本を吹っ飛ばしているようにも思います!もっと頑張ります!
今回作成データは、別の機会に、傾向などを探る分析作業に使ってみたいと思います。


この記事が参加している募集

最近の学び