【オープンデータ】統計センターのSSDSE(教育用標準データセット)を触ってみる
政府統計のオープンデータで面白そうなものないかなと探していたら、統計センターのサイトでSSDSE(教育用標準データセット)なるものを見つけました。
サイトではSSDSEについて以下のように説明されています。
現在利用できるデータセットは以下の5種類のようです。
どれも面白そうですが、今回は「社会生活」というデータを触ってみようと思います。
社会生活データの仕様確認
統計センターの方でデータの仕様書が丁寧にまとめられています。まずこちらを簡単に眺めてみましょう。
データのおおもとですが、総務省統計局が5年おきに行っている「社会生活基本調査」に基づいて作成されているようです。2022年現在、収録年度は2016年のみで、最新の2021年での調査は既に終わっていますが、本データに反映されるのは2023年だそうです。
データのレイアウトは以下のようになっており、縦146行、横122列でちょうどいい規模感になっています。
収録項目については以下のように記載されています。基本的に10歳以上の人に対してアンケートを取っているようです(出勤、仕事からの帰宅時間のみ、15歳以上の有業者を対象)。
その他細かい仕様の説明もされていますが、確認はこんなところにして実際にデータを触っていく上で必要に応じて振り返えっていくことにしましょう。
EDA(探索的データ解析)
全国の男女別比較
最初に、都道府県は区別せずに各項目の男女の差についてデータを見てみます。学習・自己啓発・訓練の実行割合を男女別にプロットすると以下のようになります。縦軸の実行割合というのは、過去1年間でその人が当該行為をしたかどうかを表す割合になります。ビジネス系や社会・自然科学の勉強は男性の方が多く、反対に介護、家事、芸術などは女性の方が高い傾向があることが分かります。
次にスポーツについて見てみます。野球、サッカー、ゴルフ、つりといったスポーツは圧倒的に男性の方が多く、女性の方が多いスポーツはバドミントンとウォーキングのみでした。全体の総数を見ても男性の方が10%ほど多い結果となっています。
趣味・娯楽の結果は以下のようになります。面白いところを挙げると趣味としての読書は女性の方が割合が多いといったところでしょうか?自己啓発のところでは男性の方がビジネスや社会・自然科学の勉強割合は多かったですが、趣味の読書(小説など?)となると女性の方が多いのですね。テレビゲームの割合とかは男の方がダブルスコアで多いかと思っていましたが、結構僅差なのも意外でした。最近は女性の方も結構ゲームをやられるようです。キャンプとかも男の趣味のイメージがありましたが、そこまで男女差はないようでした。趣味の絶対数で見比べると、映画鑑賞、音楽鑑賞、カラオケ、写真撮影、読書、ゲーム、テーマパークが娯楽としての地位を確立しているようです。
次にボランティアの割を見てみます。高齢者、障害者、子供を対象とした直接人と触れ合う系のボランティアは女性の方が多く、まちづくり、安全、自然や環境保護に関するボランティアは男性の方が多いようです。
旅行系は全体的に女性の方が多い傾向がある以外は特に特徴はなさそうです。
一日の生活に費やす時間の差を見ると、家事育児の男女差がひどいことになっています。これは2016年の調査ですが、2021年ではもう少しましになっていることを願いたいですね。
最後に活動時刻の差について見てみます。男女の就業時間には平均的に2時間程度差があるようです。ひと月20営業日と考えると40時間、1時間当たりの残業代が2,500円だとしたら10万円の所得の差になります。こういったところが男女の収入の格差に影響を与えていそうですね。
東京とそれ以外地域の比較
次に、都道府県の分類に着目して東京都それ以外の地域の比較を行ってみます。東京以外という分類のデータはないので、自分で東京以外の都道府県のデータを人口加重で平均して作成することにします。ただし、活動時刻に関するデータは処理が面倒くさいので今回は割愛します。
まずは学習系です。東京とそれ以外で実行割合がかなり違います。唯一介護関係だけ、東京以外の方が微妙に多いです。地方の方が相対的に介護に従事しなければならない割合が多いようです。
次にスポーツを見てみます。こちらも全体的に東京の方が割合は大きいですが、ところどころ逆転している項目はあります。つりなどは東京よりも地方の方がスポットが多いので、東京以外の割合が多いのはなんとなく納得です。
趣味・娯楽はどうでしょうか?こちらは総数の割合は先の二つに比べて僅差です。東京以外の方の方が園芸・ガーデニング、パチンコを嗜む人が多いようです。
ボランティアの割合は東京以外の方が総数の割合は多いです。特に街づくりや自然、環境保護に関連するボランティアへの取り組みが多いようです。
旅行・行楽については全体的に東京の方が割合が多い結果となりました。海外旅行に関しては東京はそれ以外よりも2倍多い割合であり、この辺りは所得格差などが影響してそうな気がします。
最後に一日に費やす時間の差についてです。東京以外の方が若干テレビなどに費やす時間は多いでしょうか?東京の人の方が通勤時間は20分ほど長いようです。学業については東京以外の方が費やす時間が50分ほど長いようですが、この差はいったいどういう意味なのでしょうか。直観的には東京の学生の方が塾など多く通っていて勉強をしているイメージがあったのですが、実は地方の学生の方が平均的には勤勉であるということでしょうか。何かしら見落としているサンプルのバイアスがありそうですが、面白い結果かと思います。
以上、少し長くなりましたがSSDSEのデータを実際に触って色々見てみました。要約データにはなるので、そこまで高度な統計分析を行う余地はありませんが、欠損などもなくかなり綺麗なデータなので、データを整形してビジュアライゼーションしてみる練習にはかなりいいのではないのでしょうか?統計やデータリテラシーの教育の改革が今どこまで進んでいるのか詳しくありませんが、こういった教材を実際の教育の場でガンガン活用していけるようになれば日本の未来も少しは明るくなるかもしれませんね!
この記事が気に入ったらサポートをしてみませんか?