[Stataによるデータ分析入門]確率四分位ダミーを作成する

 確率四分位とは、ある変数について大小順に並び替えて、25%ずつの階級に分けたものです。下位25%を第一四分位、次の25%を第二四分位、50%から75%までの値を第三四分位、最後の25%を第四四分位と呼びます。

画像1

説明変数に、各々のデータが確率四分位のどの分位に含まれているかを示すダミー変数を追加する方法を考えましょう。なお、本コラムで使用するデータは以下からダウンロードできます。

sumコマンドで確率四分位を確認する

その前に、chapter2.dtaを使って、占有面積floorによる確率四分位を確認しておきましょう。chapter2.dtaを読み込ませて、

sum floor,detail

と入力してください。detailオプションをつけることにより、平均・標準偏差、最大値、最小値に加えて、追加的な統計指標を表示されます。以下の例では、下線部が、それぞれ、第一四分位点、第二四分位点、第三四分位点に対応します。

画像2

xtileコマンドの利用

次に、この確率四分位点を区切りとして、各々のデータが、どのグループに属しているかを示すカテゴリー変数を作成しましょう。具体的には、xtileコマンドを使います。

xtile (新しい変数)=(基準となる変数), nq(4)

たとえば、chapter2.dtaの占有面積floorによる確率四分位を示すカテゴリー変数を作成してみましょう。chapter2.dtaを読み込んだ後、以下のように入力してみてください。以下の例では、確認用にlistコマンドで上から1件目から10件目までと、31件目から40件目を表示させています。

xtile floor_quantile=floor,nq(4)
list rent floor floor_quantile in 1/10
list rent floor floor_quantile in 31/40

なお、xtileコマンドは、実行しても何も表示されないので、以下の出力結果ではlistの結果のみを示しています。

画像3

確率四分位のダミー変数は、floor_quantileを使えば簡単です。

gen floor_q1=0
 replace floor_q1=1 if floor_quantile==1

egenmoreコマンドの利用

 なお,グループごと(たとえば年year 毎)に四分位変数を作成したいという場合もあるでしょう。残念ながら,xtile コマンドに“by”オプションをつけることはできません。代替的なコマンドとして,ネット上で提供されているegenmore コマンドを紹介しておきましょ
う。まず,egenmore をインストールする必要があります。 egenmore をインストールした上で,

egen floor_quantile=floor,nq(4) by(year)

として,各年ごとのサンプルで四分位を計算してくれます。

本記事は、Stataによるデータ分析第2版で紹介していたものの、ページ数の関係で第3版での掲載を見送った項目を紹介しています。

Stataによるデータ分析入門第3版のWEB補論の一覧はこちら。


この記事が気に入ったらサポートをしてみませんか?