見出し画像

ダミー変数に関して

1. はじめに

ダミー変数の相関について計算する必要上改めて再勉強した。社会科学で統計的手法において困ったことがあったらいつもCohen et al. (2003) を参照しているのだけど、今回もばっちりと解説があった。なので、とりあえず社会科学の研究を志している人で統計的手法を使うのなら、この書籍は高いけど買っておいて損はないと思う(電子書籍版なら比較的安い!)。

2. ダミー変数とは

ダミー変数とは、質的変数に1, 0 の数字を割り振ることで2値の変数に変換したもののことである。

社会科学だと性別を統計モデルに組み込むことが良くあるのだけど、例えば男性 = 0, 女性 = 1 として変数として組み込むのがこの手法だ。

他にも、関東、関西、中部、九州という四つの地域の経済状態の分析をする際、こうした地域に関してのダミー変数を作ることもある。例えば、関東を基準として関西ダミー(関西=1, 他の地域 =0)、中部ダミー(中部 = 1, 他の地域 = 0)、九州ダミー (九州 = 1, 他の地域 = 0)と三つのダミー変数を作ってモデルに組み込むなどである。

ダミー変数を作る場合は(カテゴリー数 - 1)個の変数を作ればよい。性別であれば男性と女性の2カテゴリーあるので、ダミー変数は1個、上記の地域に関して言えば4つの地域があるのでダミー変数は3個作ればよい。

3. ダミー変数を作るうえでの基準について

ダミー変数を作るときは、どこを基準にするか、というのを考えなくてはいけない。例えば、性別の例では男性 = 0, 女性 = 1としたけども、男性 = 1, 女性 = 0という変数にしたってかまわない。また、地域別ダミーにおいて、関東を基準にしてダミー変数を作成したが、関西を基準として関東・中部・九州ダミーを作成したって良い。

実際、どこを基準にしたらよいのかということに関して、Hardy (1993) では以下の三つのポイントを挙げている。

a). 基準となるグループは比較するうえで有益なグループであるべきである
b). 結果の解釈を明確にするため、その他のグループのようなカテゴリーを基準とすべきではない
c). 基準となるグループは他のグループに比べてサンプルサイズが小さすぎてはいけない

a). は、例えば試験段階の高血圧症治療薬を患者に投与すると血圧が下がるのか、というケースについて考える。この場合、薬を投与するグループとしないグループの二つの血圧を比較することになる。ダミー変数を作るには薬を投与するグループを1とする(投与しないグループが基準)か、その逆で投与しないグループを1とする(投与するグループが基準)ことができる。

しかし、解釈をする際にはおそらく「薬を使うとこれくらい血圧が下がりますよ」ということを言いたいだろうから、投与しないグループを基準として投与するグループに1を割り振るダミー変数を作る方が望ましい。

b). に関しては、その他のグループを基準にしてしまうと結果の解釈をする際に「その他のグループに比べて・・・」ということになる。そして、その他のグループってなんだよ、っていう突っ込みを入れたくなってしまうだろう。

c). については、基準とするカテゴリーのサンプルサイズが小さいということは、追試をして同様のカテゴリーを作った場合、同じ結果が得られる可能性が低くなってしまうだろう。一般化の問題である。

4.おわりに

ダミー変数は社会科学の分析において必ずと言ってよいほど用いられるし、変数の作り方も難しくないので分析をする人はしっかりと身につけてほしい。

References

Cohen, J., Cohen, P., West, S. G., & Aiken, L. S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences. Mahwah, N.J. ; London: Erlbaum.

Hardy, M. A. (1993). Regression with dummy variables. Newbury Park ; London: Sage.


この記事が気に入ったらサポートをしてみませんか?