Lec8: 単回帰分析⑥:様々なデータの扱い方

こんばんは、今日もお疲れ様です。前回、前々回とかなりハードな内容が続いたと思いますので、今日は軽めに済ませます。ただ、軽めといっても卒論等ではよく使う手法なので、是非ここでマスターしてみてください! 今日は、まず最初にデータの種類についてお話します。データには大きく分けて3つ存在するのですが、それぞれの特徴をお話していきます。次に、説明変数や被説明変数の対数変換についてお話します。今までは、与えられたデータをそのまま回帰分析に使用していましたが、論文等ではよくデータの対数を取ってから回帰分析を行うことがあります。そこで、対数を取ることの利便性を説明いたします。最後に、ダミー変数と呼ばれる変数について説明いたします。これは端的に言うと、男か女か(最近はこの区別も配慮する必要があるのですが...)、日本人かそれ以外か、みたいに数字では表すことの出来ない特性を分類する変数のことです。例えば、大卒の男性と女性の間で生涯賃金格差は存在するのか、といった問題を分析する際に役に立つ手法です。これは、来週以降扱う重回帰分析でよく用いるものなので、今のうちに概念だけでもいいから知っておきましょう。(全然難しくありません)

1.データの種類

データには大きく3種類存在します。それぞれ、横断面データ(クロスセクションデータ)、時系列データ(タイム・シリーズデータ)、パネルデータと言います。では、それぞれ見ていきましょう。

1. 横断面データ(クロスセクションデータ)

横断面データとは、ある時点における異なる主体に関するデータのことです。次のような例を考えてみましょう。次のデータは、数字は入っていませんが、ある商品のコンビニ別における1月から12月までの月別売り上げデータだと思ってください。

画像1

この例でいうと、例えばですが8月におけるローソン、ファミリーマート、セブンイレブン、ミニストップ、デイリーヤマザキ、キヨスク、アンスリーの売り上げが横断面データに該当します。だいたいEXCELなどでは縦に時間を取り、横に経済主体を取ることが多いので、このような時間を固定した異なる経済主体について集められたデータのことを『横の断面』つまり横断面データと呼ぶわけです。

2. 時系列データ(タイム・シリーズデータ)

時系列データとは、ある主体における異なる時点のデータを集めたデータです。

画像2

さっきの例でいうと、例えばローソンにおける1月から12月までの売り上げデータが時系列データになります。横断面データと違って、時系列データは『縦』のデータになっていることが分かると思います。

3. パネルデータ

パネルデータとは、横断面データと時系列データを組み合わせたデータのことです。

画像3

さっきの例を再び出すと、ローソン、ファミリーマート、セブンイレブン、ミニストップ、デイリーヤマザキ、キヨスク、アンスリーにおける1月から12月までの売り上げデータがこれに該当します。修士論文においては、このパネルデータの分析を行えるようになることが最終目標になります。学部生であっても、最優秀論文賞を取りたいと考えている学生や、大学院に進学したいと考えている学生、論文コンクールに出場したいと考えている学生も、パネルデータの分析は出来るようにしておく必要があります。

詳しいことは重回帰分析が終わってから話しますが、パネルデータ分析は簡単そうに見えて、意外と厄介です。というのも、先週扱った誤差項の仮定Ⅳを満たさないケースが非常に多いからです。こうした課題を克服するために、重回帰分析より複雑な分析手法を用いる必要があります。

2. 対数への変換

次に、データの対数変換についてお話します。今までの回帰分析では、与えられたデータをそのまま使用していました。しかし、あえてデータの対数を取ることで違った角度でデータを見ることが出来るようになります。その前に、回帰分析における係数の役割をもう一度確認しましょうか。

画像4

係数β1の解釈は、説明変数xiが1単位増加すると、被説明変数yiがβ1単位増加する、というものです。(中学校の時に学習した1次関数における係数の解釈と全く同じです。)例えば、xiを子供の数(人)、yiを労働時間(時間)とすると、β1は子供の数が1人増えると、労働時間はβ1時間増えるという解釈になります。

ここで、被説明変数yiについて、対数を取ってみましょうか。対数を取ると言うのは、底をeとする自然対数を取るということです。Excelでは、LNという関数を使うことで簡単にデータを自然対数に変換することが出来ます。すると、回帰モデルは次のようになります。

画像5

このとき、係数β1の解釈は、xiが1単位変化したとき、yiはβ1%変化するという意味になります。対数を取る前は、xiが1単位変化したとき、yiはβ1単位変化したというように、単位分の変化であったのに対し、対数を取ることで%の変化、つまり伸び率の変化を表すようになります。

これは、説明変数xiを対数変換しても同じことが言えます。

画像6

xiを対数変換した場合、係数β1の解釈は、xiが1%変化したとき、yiはβ1単位変化するという意味です。やはり、対数を取った部分は単位ではなく%の変化になっています。

説明変数、被説明変数両方を対数変換することも出来ます。

画像7

係数β1の解釈は、xiが1%変化したとき、yiはβ1%変化するという意味です。

このように、対数を取ることで、伸び率の変化を表すというわけです。その理由を今から簡単に記載しておきますが、余力が無い場合は無視してもらって大丈夫です。(高校数学の内容を越えます。ただし、発想自体は難しいものではありません。)

画像8

画像9

画像10

3. ダミー変数

最後にダミー変数について説明します。これまでのデータは、一般的な数値に基づくデータでした。(こういうデータのことを数量データと言います)例えば、気温とアイスクリームの売り上げなどがこれに該当します。気温が1度変化したとき、アイスクリームの売り上げは何円変化するのかを回帰分析を用いて検証しました。

一方で、世の中には数字では表すことの出来ない特性を表したデータもあります。(こういうデータをカテゴリーデータと言います) 例えば、性別や血液型、学歴、国籍、人種などがこれに該当します。

こうしたカテゴリー間の違いを分析する時に使用するのが、ダミー変数と呼ばれる変数です。「男」とか「女」というのは特性ですから本来数字で表すことは出来ませんが、敢えて男ならば1、女ならば0みたいに特性のグループごとに番号を付与して考えようというのがダミー変数です。ここでの1や0といった数字はただの番号です。この段階で量的な差は存在しません。なお、番号の順番は逆でも構いません。男性に0、女性に1を付与して考えても大丈夫です。ただし、どちらにどの数字を付与したかは必ず明記する必要があります。

以下、男女の賃金格差を題材として考えてみましょう。

画像11

説明変数xiについて男性であれば1、女性であれば0という番号を付与します。男性ならば、xi=1になりますから、回帰式はyi=β0+β1+uiになります。一方で、女性ならばxi=0になりますから、回帰式はyi=β0+uiになります。つまり、係数β1は男女間の被説明変数(ここでは賃金)の差になります。これはグラフを描くことでも分かります。

画像12

なおダミー変数は3つ以上設定することも出来ます。(黒人=2, 白人=1, 黄色人種=0など) ただし、複雑になりやすいので、卒業論文ではうまいこと2つに収まるように設定することをおススメします。(黒人=1、それ以外=0など)


いかがでしたでしょうか。データの対数変換も、ダミー変数も、論文では非常によく使用される手法ですし、これらを駆使することでより多くの問題を調べることが出来ます。是非これらをマスターして、卒論を乗り切りましょう!!

単回帰分析は今週で終わりです。そして、これまでの内容で計量経済学の最も重要な部分は全て解説し終わりました。来週からは、重回帰分析に入ります。全然難しくありません。今までの内容がしっかりとマスターできていれば、問題なく乗り切れますので安心してください。

来週は、先週扱った誤差項の仮定の復習と内生性(endogeneity)の問題を議論します。その中で、単回帰分析の問題点と、その解決策の1つとしての重回帰分析という流れで単回帰分析と重回帰分析の橋渡しを行います。次回もどうかよろしくお願いいたします!

Best,

Daiki YANO

この記事が気に入ったらサポートをしてみませんか?