Rを活用した地域課題解決のためのヒント NDB分析編 #5(特定健診)
特定健診データの可視化(その3)
前回から引き続き特定健診のデータの可視化を行います。今回で可視化には一区切りつけて、次回からはデータの関係性に着目した分析を行いたいと思います。
検査値の分布を可視化する(都道府県別plot)
前回までは検査項目別に検査値の分布を見ましたが、地域差を見やすくするため都道府県別をやってみます。関数はgeom_pointを使用し検査項目はgeom_point複数グラフ(facet)にします。全検査項目及び全性別・年齢階層をplotするとビジーになるので、例としてメタボ指標関連の検査項目、男女の全年齢階層の平均でplotしてみます。スクリプトと実行結果のplotは以下の通りです。
library(tidyr)
library(dplyr)
library(ggplot2)
df.pref_kenshin_avg %>%
pivot_longer(
cols = c(-都道府県CD, -都道府県, -検査項目CD, -検査項目),
names_to = "性別_年齢階層",
values_to = "検査値"
) %>%
filter(!都道府県CD %in% c("00","99"))%>%
filter(検査項目CD %in% c("02","03","05","06","07","08"))%>%
filter(性別_年齢階層 %in% c("男_中計_平均","女_中計_平均"))%>%
ggplot() +
aes(x = 都道府県CD, y = 検査値, colour = 性別_年齢階層) +
geom_point(size =1) +
theme_minimal() +
theme(axis.text.x = element_text(angle=90, size=7))+
facet_wrap(~検査項目CD+検査項目,scales = "free_y")
X軸は都道府県CDを振ってますが潰れてますね。ご了承ください。左から北海道からスタートして最後は沖縄です。
性別の差は当然ありますが、地域差もかなりあることが分かります。検査項目別に相対的位置をまとめていけばそれが地域の特徴と言えそうです(16の検査項目の特徴をまとめるのは大変ですが)。同じような特徴の地域がどこなのか見てみるのも良いと思います。
シリーズ#6以降の分析はこのような地域の特徴を集約してみたり、似たような地域はどこなのかなど、可視化だけでは難しいことを多変量解析という手法で分析してみますのでご期待ください。
検査値の分布を可視化する(都道府県別plot)ポジショニング
ここから先は
3,446字
/
3画像
¥ 300
この記事が気に入ったらサポートをしてみませんか?