見出し画像

[PSPP]回帰分析①

ある変数をいくつかの変数を使って因果関係を説明する方法を回帰分析と言います。説明される変数を目的変数(従属変数)と言い、説明する側の変数を説明変数(独立変数)と言います。目的変数が連続変数の場合に広く用いられる回帰分析が、線形回帰分析です。一方、目的変数が「あり/なし」のような2値データである場合には、ロジスティック回帰分析が用いられます。

単回帰分析

2つの変数間の関係を分析するとき、因果関係を想定し、一方の変数を使って、もう一方の変数を予測したいときに用いるのが単回帰分析です。目的変数をY、説明変数をXとすると、回帰分析は変数間に次の一次式のような線形関係を想定します。

Y=a+bX a:切片、b:傾き(回帰係数)

この式を回帰式と言い、それによって描かれる直線を回帰直線と呼びます。

2つの変数間に完全な直線関係が成り立つ場合にはa・bの値は簡単に決まりますが、通常はそのようなことはありえません。そこで、従属変数の実測値と予測値との誤差の2乗和が最小になるようなa・bの値を求めます。この方法を最小二乗法と言います。

たとえば、子どもの身長と父親の身長のデータがあり、それをプロットした場合、次のように右肩上がりとなったとします。

父親の身長が高いほど、子どもの身長が高いような傾向が見て取れます。

そしてそれを説明する直線が引けるような気がしてきます。この直線が、このプロットを最もよく予測できる場合、それが回帰直線ということになる。

よって、まずプロットをとってみることが大切です。

■単回帰分析の実行

ここでは、上の子どもの身長を父親の身長によって説明する単回帰分析を実行する例を示します。

・[分析]-[回帰]-[線形]を選択する。

・従属変数(目的変数)に「子どもの身長」を指定。
・独立変数(説明変数)に「父親の身長」を指定。

・[OK]をクリック。


出力の見方

「モデル集計(モデル要約)」では、モデル全体の説明率が表示されます。「R」を重相関係数、その2乗値(「R2乗」)を決定係数と呼びます。 決定係数は従属変数の散らばりのうち、どれだけの割合を説明変数によって説明できているかを示しています。この分析例の場合、8割程度説明できていることになります。 残りの2割弱はこのモデルでは説明されずに残っているということです。
決定係数(R2)は、通常変数の数が増えると大きくなるという欠点があるため、その影響を受けにくいように調整したものが自由度調整済みR2乗です。後で説明する重回帰分析では、こちらを見ることが多いです。

「分散分析」では回帰式全体の有意性の検定が示されており、この場合、自由度(1,8)のF値38.0、0.1%水準で有意です(論文やレポートでは、F(1,8)=38.0, p<.01 と表記します)。

「係数」では、非標準化係数の欄にY=a+bX で示した切片aと回帰係数bの推定結果が表示されています。推定値は「B」の欄に表示されており、この結果の場合、子どもの身長は、Y=77.2+0.48Xで予測されるということになります。その隣には対応する標準誤差が表示されています。

標準化回帰係数は、非標準化回帰係数に独立変数と従属変数の標準偏差の比を掛け合わせたもので、すべての変数を標準偏差1 に調整した標準得点にしたときに、独立変数が1点増えると従属変数がどれだけ増えるのかを表しています。つまり、すべての変数の単位をそろえることで、各独立変数の効果を比較できるようにしており、重回帰分析で重要な値となります。また、回帰式同士を比べる場合にも用います。

右端には切片と回帰係数の有意確率が表示されています。この場合,有意確率は.000となっているので0.1%水準で有意です。よって、父親の身長は子どもの身長に有意な影響を与えていると判断できます。


予測する

回帰分析は、因果関係を想定し、一方の変数を使って、もう一方の変数を予測したいときに用いるものですから、その本質は得られたデータを用いて、得られていないデータを予測することにあります。例えば、気温とビールの売り上げの間に、有意な回帰式がなりたつとすれば、予想気温から売り上げの予測を立てることができ、それによって生産量・出荷量を最適化することができます。


落とし穴〈外れ値〉

大多数のデータが示す傾向から大きく離れた値は外れ値と呼ばれ、分析結果に悪影響を及ぼすことがあります。つまり、統計とは一般的に言える傾向をつかむものである以上、あまりに極端で特殊なデータは扱いにくいということです。

外れ値があった場合には、その外れ値を削除して予測モデルを作成する必要があります。しかし、その削除が、自分の予測にとって都合がいい恣意的なものにならないように注意する必要があります。

たとえば、上のデータの場合、このまま分析を行うと、回帰式はY=97.57+0.45Xとなり、決定係数(R2)は0.33にしかなりません。

しかし、はずれ値を削除して分析を行うと、回帰式はY=63.93+0.64X となり、決定係数(R2)は0.85となります。

この記事が気に入ったらサポートをしてみませんか?