見出し画像

【研究機関連携】ミネソタ大学IPUMS-Iとの協働世界各国の国勢調査の匿名データとのハーモナズ

データサイエンスでは、意思決定や物事の深い理解のために客観的なデータに基づいて考えることが重要です。このプロセスにおいて、品質の良いデータの使用が重要となります。そのため、世界各国や日本の国勢調査のような信頼できる匿名データを活用し、効果的な分析が行える環境を整えることが求められます。

立正大学データサイエンス学部 教授 白川 清美

■ミネソタ大学IPUMS-Internationalプロジェクトとは

 ミネソタ大学のIPUMS-International(IPUMS-I)プロジェクトは、世界中の103カ国から集められた547回の国勢調査と調査データを収集・提供する取り組みです。このプロジェクトには、10億人以上の個人記録が含まれており、これらのデータは統一された形式で整理されています。IPUMS-Iの目的は、様々な国の人口統計や社会経済的データを国際的な比較研究や社会科学の研究に利用できるようにすることです。これらのデータは匿名化されており、教育や研究目的で広く使用されています。[1][2]
 なお、IPUMS-Iには日本の国勢調査の匿名データが含まれていない。そのため、各国のデータと日本のデータを比較する場合は、家族属性や職業分類等を合わせる必要があります。

■日本の国勢調査の匿名データの利用

 日本の統計局が提供する国勢調査の匿名データは、日本国内の人口、世帯、雇用状況などに関する包括的な情報を含んでいます。このデータは一定の期間ごとに収集され、日本の人口動態や社会経済的状況を反映しています。
 国勢調査のデータには、年齢、性別、職業、教育水準、収入レベルなどの個人情報が含まれますが、これらは全て匿名化されており、個々の人物を特定することはできません。このため、プライバシーの保護が確保されつつ、研究者や政策立案者が人口統計や社会動向を分析するための重要な資源となっています。
 この国勢調査データは、日本の人口構造の変化、地域別の人口分布、職業や教育の傾向など、日本社会を理解するための基本的かつ重要な情報源として利用されています。また、政策立案、市場調査、学術研究など、さまざまな分野での応用が可能です。[3]

■立正大学データサイエンス学部とミネソタ大学IPUMS-Iの協働

 2022年9月、IPUMS-Iプロジェクトのオフィスがあるミネソタ大学を訪問し、プロジェクトの進め方について協議して来ました。
 日本の国勢調査の匿名データのユーザが、IPUMS-Iのユーザになった場合、2つの匿名データを結合して、日本を含む各国の比較ができるようにするためのプログラムを開発することになりました。
 現在、日本の国勢調査の匿名データは、2000年、2005年、2010年、2015年の4調査年次であるため、それぞれのデータレイアウト・符号表を見ながら、IPUMS-Iとの調和(ハーモナイズ)するプログラムを開発し、その内容を確認しているところです。
 近々に、ここで開発したPythonコード等を公開する予定です。

打合せ風景
IPUMS-Iメンバーとの集合写真

【アメリカあるある】

 ミネソタ大学があるアメリカでは、車のナンバーもある程度自由に設定ができます。車のナンバーにも「IPUMS」って、プロジェクト愛がありますね!

「IPUMS」ナンバー登録の車

【参考情報】
[1]IPUMS-Iのウェブサイト https://international.ipums.org/international/
[2]人口等のミクロデータに関するWebデータベースIPUMSについて、エストレーラ 2021年3月(No. 324)
[3]独立行政法人統計センターのウェブサイトhttps://www.nstac.go.jp/use/archives/anonymity/

立正大学データサイエンス学部情報
・立正大学データサイエンス学部HP・・・https://www.ris.ac.jp/ds/
・立正大学データサイエンス学部X(旧twitter)・・・https://twitter.com/Rissho_DS
・動画コンテンツ(学部紹介や模擬授業など)・・・https://www.ris.ac.jp/ds/movlist/