見出し画像

Rを活用した地域課題解決のためのヒント NDB分析編 #2(特定健診)

特定健診データのダウンロードと前処理

ダウンロード

特定健診のデータはたくさんあります。第1回から始まり時系列になっています。まずは執筆時点で最新の第7回(2019年度のデータを2020年に公開)のデータから見てみます。特定健診はかなり下にスクロールしないと出てきません。さらにちょっとうんざりするのが検査項目毎にデータが分かれているところです(・・・)。
全項目をよく見ていただくとわかるのですが、
各項目の平均値 都道府県別性年齢階級別分布 [174KB]
各項目の平均値 二次医療圏別性年齢階級別分布 [1,153KB]
が途中にあります。
このエクセルファイルに全検査項目の階層別平均値がありますので、地域差を俯瞰する場合は、このエクセルファイルをダウンロードするのが良いと思います。以下都道府県を事例に進めます。
「各項目の平均値 都道府県別性年齢階級別分布」をクリックすると、以下のようなエクセルファイルがダウンロードされます。

図1:各項目の平均値 都道府県別性年齢階級別分布のエクセルファイル

データの前処理の考え方

ダウンロードしたエクセルファイルはこのままでは分析に全く使えません。数値をグラフ化する程度なら問題ないですが地域間格差を分析するには、エクセル特有の機能である「セルの結合」が大変邪魔になります。
図1では、A列の都道府県においてセルの結合がなされており、B列の検査項目と1対1の対応ができない状態です。北海道のBMI、北海道の腹囲のように紐づける必要があります。
また、分析には、例えば、北海道のみのデータを抽出する場合「北海道」をキーにするより、北海道=01とコード化して、「01」で処理する方がプログラムにおいて簡素化・効率化できます。47都道府県について各都道府県毎にコードを振る必要がありますが、一度「都道府県マスタ」を作成すればその後はマスタを参照することにより活用の幅が広がります。同様に検査項目も可能ならコードを付与した方がよさそうです。
なお、都道府県コードは総務省が公開している「全国地方公共団体コード」*1を準用することにします。
さらに、対応が必要なのは5行目の項目です。A列、B列はセルの結合、C列以降は平均という項目名が続くので、同じ項目名にならないよう変更が必要になります。例えば、C列の「男、40~44歳、平均」でしたら、新たに「男_40_44歳_平均」という項目名を作成すれば項目名が被ることはありません。
*1:https://www.soumu.go.jp/denshijiti/code.html

データの前処理

ここから先は

729字 / 1画像 / 1ファイル

¥ 150

この記事が気に入ったらサポートをしてみませんか?