[RとStataによるデータ分析入門]ミクロデータ収集のコツ

Stata/Rは、家計や個人、あるいは企業や工場を調査単位とするマイクロ・データによる研究、さらには第4章で紹介したパネル・データによる分析で、よく利用されます。一方で、こうしたデータは個人では収集が困難で、かつては、この手の研究・分析は、政府系の研究機関や調査会社の研究プロジェクトに所属する研究者に限定されていた時期もありました。しかし、近年、マイクロ・データを利用した研究についての理解が深まり、一部の研究機関や公的機関を通じてマイクロ・データの利用促進が進められています。以下では、その一部(経済分析でよく利用されるものを中心に)を紹介します。
 なお、データによって、利用目的、利用資格、利用条件が異なっています。詳しくは、各機関にお問い合わせください。


東京大学社会科学研究所社会調査データアーカイブ(SSJDAアーカイブ)

SSJDAアーカイブは、各種調査機関から寄贈された、調査データの調査票・個票データを収集し、その二次利用を促進することを目的としたデータ・アーカイブです。通常、調査機関等によって実施されたアンケートは、当初の分析目的が達成されると破棄されてしまうことが多いのですが、SSJDAアーカイブでは、こうしたデータの寄贈を募り、各調査機関に代わって、データの保管を行っています。さらに、保管しているデータをデータベース化し、外部の研究者から利用の希望があった場合に、調査実施機関の許諾を得た上で、研究者に個票データを提供するという制度を持っています。
 収録されているデータは、ホームページで検索可能ですので、ご自身の関心テーマに沿うデータがないか探してみるといいでしょう。また、「利用論文リスト」には、アーカイブのデータを用いて執筆された論文が出ていますので、参考にするといいでしょう。なお、一部のデータは、学部生の利用についても認められているものもあります。

ミクロデータ利用のポータルサイト

このポータルサイトは、政府統計のミクロデータの利用に関する制度の概要や具体的な手続きなどを紹介することを目的として、総務省と独立行政法人統計センターによって整備、運用されています。
利用できるミクロデータの形態としては、匿名化データ、オーダーメード集計データ、調査票データがあります。匿名化データとは、分析に差障りがないと考えられる範囲で、一部の項目をカテゴリー化する(たとえば、居住地を「北海道」「東北」…のような地域区分に変更する)ことにより、個々のデータが特定化されないように処理を施したデータです。
一方、オーダーメード集計とは、研究者が省庁・統計センターに委託する形で行政機関等が作成していない統計表の作成するサービスです。一定の手数料がかかります。
三つの目の調査票データは匿名化されていない政府統計の調査票情報です。秘匿性が高いため、利用場所・環境を事前に届ける必要があり、たとえば利用場所としては、施錠可能な大学の研究室(個室)、あるいは統計センターや全国のいくつかの大学・公的な研究機関が設置するオンサイト施設などに限られています。


慶應義塾大学パネルデータ設計・解析センター

日本家計パネル調査(JHPS/KHPS)

日本家計パネル調査(JHPS/KHPS)は、2004年から始められた慶應義塾家計パネル調査(KHPS)と、2009年より同時並行的に始められた日本家計パネル調査(JHPS)を、2014年に統合し名称変更したものです。KHPSは20歳から69歳までの男女、毎年全国4000世帯、およそ7000人を対象にしたパネル調査で、対象者の就業・就学・生活環境・生活時間配分・健康状態・環境・世帯構成・収入支出・資産・住居などが追跡調査されています。JHPSは、2009年から開始された調査で20歳以上の男女、毎年4000世帯、およそ6000サンプルが利用可能です。調査項目は、慶應義塾家計パネル調査と類似していますが、主観的な項目が多く含まれており、学際的な研究を意識した調査になっています。

https://www.pdrc.keio.ac.jp/paneldata/datasets/jpsc/

また、1993年から財団法人家計経済研究所で実施されてきた「消費生活のパネル調査」も、2018年より慶応大学パネルデータ設計・解析センターに引き継がれています。この調査は、若年女性の生活実態、すなわち収入・支出・貯蓄、就業行動、生活時間、耐久消費財の取得状況、家族関係に関する情報を収集するパネル調査です。調査対象は1993年時点で24~34歳であった女性、およそ3000人であり、男性や中高年層が含まれませんが、かなり長い期間のデータが利用できることが利点です。1997年、2007年にも調査対象者の追加が行われています。

大阪商業大学JGSS

JGSS(Japanese General Social Surveys)データは、就業は家計、世帯構成、余暇・健康・犯罪被害などの実態、政治・家族・死生観などの意識についての調査で、1999年以降毎年実施されている個人レベルの調査です。調査対象は20歳以上の男女です。同一個人を追跡したパネル調査ではありませんが、サンプル数も豊富で、さまざまな研究に活用されています。二次利用の手続きを踏むことで、研究利用(卒業論文等での利用を含む)が可能です。

どんな変数が含まれているかについては、以下の変数検索が便利です。


OECD PIAACデータ

PIAACとは、Programme for the International Assessment of Adult Competenciesの略で、OECD加盟国等24か国・地域が参加する16~65歳までの男女個人を対象とした調査です。年齢や性別、学歴、職歴などに加えて「読解力」や「数的思考力」「ITを活用した問題解決能力」などが調査されています。こちらのデータは匿名化処理されたものが、OECDのWEBサイトからダウンロードできるようになっています。特に手続きも必要ありません。

国立教育政策研究所のWEBサイトに簡単な説明と各種資料があがっています。

https://www.nier.go.jp/04_kenkyu_annai/div03-shogai-piaac-pamph.html

岩瀬先生の以下の論考も参考になるかと思います。
https://www.jstage.jst.go.jp/article/jslis/66/4/66_101/_pdf

ダウンロード方法などは以下を参照してください。

三重大学名誉教授の奥村先生のWEBサイトも参考になるかと思います。

OECD PISAデータ

OECDの子どもを対象とした学習到達度調査です。説明については、国立教育政策研究所の説明を引用します。

 OECDが進めているPISA(Programme for International Student Assessment)と呼ばれる国際的な学習到達度に関する調査に、我が国も参加しており当研究所が調査の実施を担当しています。PISA調査では15歳児を対象に読解リテラシー、数学的リテラシー、科学的リテラシーの三分野について、3年ごとに本調査を実施しています。なお、次回PISA2025については、2024年に予備調査、2025年に本調査の実施が予定されています。
 研究所内に調査実施のためのプロジェクトチームが部・センターをまたがって組織されており、国際研究・協力部が総括的な事務局を担っています。

国立教育政策研究所WEBサイトより

国立教育政策研究所に様々な資料があがっています。ここからOECDのWEBサイトに入っていくこともできます。

https://www.nier.go.jp/kokusai/pisa/

関連文献がWEB上に多数ありますので参照してください。

こちらは三重大学名誉教授の奥村先生のWEBサイト

民間企業が提供する企業レベル・データの利用について

個別企業のデータの利用は、政府統計(ミクロデータ利用のポータルサイト参照)や東大社研SSJDAが管理するアンケート調査を除くと、民間企業が提供する有料のデータベースへのアクセスに頼らざるをえないのが現状です。所属する大学の図書館等で企業レベル・データを提供するデータベースの契約がないか確認するのがよいでしょう。上場企業の場合、財務諸表等の情報公開が義務付けられているため比較的アクセスしやすく、大学図書館等で日経NEEDS企業財務データベースなどの契約があれば、財務データを一括してダウンロードして分析することができます。

 また、上場企業の財務情報に、東洋経済のデータサービスによって提供されている「海外進出企業データ」、「CSR企業データ」、「就職四季報」等から得られるデータを接続することで企業の海外展開、Corporate Social Responsibility (企業の社会的責任、CSR)への取り組み、人事政策といったトピックについての分析も可能になります。

その他、業種を限定すれば各種業界団体がデータを公表している場合がありますので探してみるとよいでしょう。

本記事は、Stataによるデータ分析入門、Rによるデータ分析入門のWEBサポートとして作成されました。

Stataによるデータ分析入門第3版、Rによるデータ分析入門のWEB補論の一覧はこちら。


この記事が気に入ったらサポートをしてみませんか?