見出し画像

SASで地理B:基本データ

ここでいったん基本データの整理をしたいと思います。
これからよく使うであろう以下のデータを作りました。
国ごとの人口データ
国ごとの宗教データ
国ごとの1人当たりGNI

これらを基本データとして、いつでも使える「永久SASデータセット」にして保存しておきます。SASデータセット自体を記事に貼ってあるのでダウンロードすればそのまま使えます。

国名・国コード

国名は、例えば「中国」、「中華人民共和国」などのように提供されるデータによって記載がバラバラです。また海外データでは英語表記しかありません。これではデータ同士を結合させて分析するときに困ってしまいます。
そこで、1つの基準を作ってこちらに統一することにします。

元データはこちらです。

これをSASデータセットにしました。

こんなイメージのデータです。

countrycode.sas7bdat
countrycode.sas7bdatの構造

新たなデータを入手したときにこのデータセットと横結合し、結合しなかった国名はこの一覧に一致するように手で修正することにしました。

国ごとの人口


国ごとの人口の元データはこちらです。

これと、先程のcountrycodeを結合させて、共通Keyを持たせました。

作成したSASデータセットです。

データイメージと構造はこんな感じです。

world_population.sas7bdat


world_populationの構造

国ごとの宗教

元データは4つあります。
国ごとの宗教の割合とキリスト教の細分類です。

国ごとの宗教

カトリック

プロテスタント

東方正教会

これらをまとめた後、Countrycodeと横結合させています。

完成したSASデータセットはこちらです。

データサンプルと構造はこんな感じ。

world_religion.sas7bdat


world_religionの構造

国ごとの一人当たりGNI

元データはこちらです。

作成したSASデータセットです。

サンプルと構造です。

gni_per_capita.sas7bdat
gni_per_capitaの構造

SASプログラム

作成したSASプログラムも一応載せておきます。

今回から、SAS OnDemandのフォルダ構造を以下のように変えました。

dataには、インプットファイルと今回作ったような基本データとしてのSASデータセットを入れます。
programにはSASデータセット、outputはプログラムから作成される帳票などのPDFファイルなどが出力される場所です。

この記事が気に入ったらサポートをしてみませんか?