SSDSEがデータセットとして面白いよという話

(注)SSDSEの個人利用・記事化に関しては事前に問い合わせを行い、データの出典を明記すればOKとご返答をいただいています。

はじめに

データ分析を勉強していて、何か面白いデータないかなあと考えたことはありませんか?

アヤメのデータセットとかはもう飽きたけど、ドメイン知識が必要なものは敷居が高いなあと感じ、自分のペースでいつでも可視化ができて、分析結果を考察する訓練ができるようなデータをかくいう自分も探していました。

今回は、ふと見つけたSSDSE(教育用標準データセット)というものが面白そうだったので紹介しようと思います。

SSDSEって??

SSDSEは、e-Stat(政府統計の総合窓口)に収録されている都道府県・市区町村のすがた(社会・人口統計体系)から作成されたデータで、分析の汎用素材として公開されているものです。このSSDSEを用いた統計データ分析コンペも開催されているようですね。

SSDSEは以下の4つに分かれています。

SSDSE-A…全国の市区町村別データ。人口・事業所数・就業人数など項目は幅広い。
SSDSE-B…都道府県別の時系列データ。人口・気温・学校数・住居費などが入っている。
SSDSE-C…県庁所在地別の家系消費データ。米・パンなど品目別に分かれている。ブロッコリーやちくわなどかなりたくさんの食品がある。
SSDSE-D…都道府県別の自由時間活動・生活時間データ。園芸や庭いじりを過去1年間に行った割合や通勤の1日あたり平均時間など、日々の暮らしにフォーカスしたデータがある。

実際のデータを見ていただくとわかるのですが、めちゃくちゃ細かくデータがあります。ドメイン知識のようなものはあまり必要ないので、気軽に可視化→考察を行う練習ができそうです。

せっかく紹介したので、1つくらい可視化をしてこのnoteは終わりにしようと思います。

通勤時間を可視化してみる

これ以降の可視化は、独立行政法人 統計センター SSDSE-D(https://www.nstac.go.jp/SSDSE/)を加工して作成しています。

今回は、SSDSE-Dにある各都道府県の通勤・通学時間を可視化してみます。せっかくなので、foliumを使ってコロプレス図の描画に挑戦します。

コロプレス図の作成は以下のサイトを参考にさせていただきました。

可視化する前に、どの都道府県が通勤・通学時間が長いか予想してみます。

まず、千葉県や埼玉県は東京に向かう人が多いので長いだろうというのは関東在住なのですぐに予想できます。関西だと大阪や京都が長いのか…?大都市付近は概ね長くなりそうです。逆に自分は北海道の通勤・通学事情が全くわかりません。市を跨いだ通勤とかするんですかね?(北海道出身の人教えてください)

早速可視化を行ってみましょう。結果は以下のようになりました。

スクリーンショット 2021-09-13 21.37.15

予想通り、大都市周辺は通勤・通学時間が長い傾向が見て取れます。北海道は特に長いといったことはないようです。移動が手間だから、通勤・通学に便利な場所に居住しているのかもしれません。

ここまで書いていて、「通勤時間長いと早起きになるから睡眠時間短そうだな」と思い、1日あたり睡眠時間(分)のデータもSSDSE-Dにあったのでこれも可視化してみます。予想が当たっているなら、色の濃さが逆になっているはずです。

結果は以下の通りでした。

スクリーンショット 2021-09-13 21.51.09

ものすごく雑な仮説でしたが、少しは当たっていそうです。3大都市圏では睡眠時間が比較的短いことがわかります。

他にも、仕事からの帰宅時間や起床時間も可視化してみると面白そうです。さらに、都道府県別に各種スポーツを過去1年で行った人の割合があるので、個人的には都道府県とスポーツ種目の関係なんかも調べてみたいなあと思っています。

こんな感じで、SSDSEは気軽に可視化や考察の練習をするのにちょうどいい素材です。データをいじって何か考えて遊んでみたいぞという方は、ぜひSSDSEを触ってみてはどうでしょうか(いじった結果面白いことがわかったらぜひ教えてください)。来年はこのデータを使ったコンペにも挑戦してみようと思います。


この記事が気に入ったらサポートをしてみませんか?