見出し画像

【統計のキソ】重回帰分析をすると何がうれしいの?

二回も修士課程を出ておきながら、どちらも質的調査だったため、量的調査が苦手です(威張っていうことではありません)。そんな私が、先日の博士課程でのデータ・アナリティクスの授業で重回帰分析を改めて学び、今更ながら「あ、こういうことだったのか」と納得することが多々ありました。

恥を晒すようでなんですが、①虚勢を張ってもしようがない、②言語化しておけば将来の私のためになる、③もしかしたら私と同様に統計が苦手な人のためにもなるかもしれない、ので重回帰分析について書いてみます。いかんせん、統計苦手な人が書いているので、話半分にご笑覧くださいませ。

重回帰分析をザックリと

重回帰分析は多変量解析の一つで、複数の独立変数がどのように目的変数に影響しているのかを分析してくれる手法です。

例をもとにざっくり説明します。ビジネスホテルの宿泊料金が目的変数(Y)に置くとします。IC(インターチェンジ)からの移動距離(X1)、部屋の広さ(X2)、築年数(X3)、温泉の有無(X4)、、、などといった複数の独立変数(X)が宿泊料金(Y)にどのように影響するのかを分析してくれるのが重回帰分析です。

よくよく考えると、XとYの関係性を明らかにするものとしては相関分析もあります。となると次の疑問が生じました。

疑問1:相関分析と重回帰分析は何が違うの?

論より証拠で、授業の中で実際にローデータを基に解説されて、納得しました。先ほどの例で言えば、直観的な仮説として、ICからの移動距離(X1)の値が大きいと宿泊料金(Y)の値は小さくなる、と考えられます。

ところが、授業で扱ったデータでX1とYとの相関分析を行うと、相関係数が0.41となり正の相関を示していました。つまり、相関分析の結果からは、X1が高くなるとYも高くなる、と結論づけられてしまうのです。尚、X1とYとで単回帰分析を行なっても同様でした。

他方、ICからの移動距離(X1)に加えて部屋の広さ(X2)を独立変数として加えて、宿泊料金(Y)を目的変数に置いて重回帰分析を行ったところ、X1の係数は約-196でX2の係数は約761となりました。つまり、ICからの移動距離が1分増えると宿泊料金は約196円下がり、部屋の広さが1㎡広くなると宿泊料金は約761円上がる、ということを表しています。

このように、目的変数に影響を与える独立変数を適切に複数用意することで仮説を検証することができるようになるのです。重回帰分析の結果として補正R2の値が高くなれば、説明できる範囲が広くなることを意味します。これが重回帰分析を行うメリットの一つと言えます。

疑問2:独立変数はどのように設定するの?

となると、鍵となるのは適切な独立変数を複数設定することができるのかです。まず大事なのは、特性要因図(別名:フィッシュボーン図)で目的変数に影響しそうな変数を洗い出しておくことです。仮説は仮説として大事にしながらも、他に影響を与えそうな独立変数を挙げておくことが大事です。

次に、目的変数に影響を与えていると言われている独立変数を先行研究で調べておくことです。あー、そういえば、M1の時の授業で盛んに「先行研究で扱われていた変数はなんですか?」と先生方から問われていたわぁ、と思い出しました。他の変数が関連していないかを明らかにすることが重回帰分析のメリットなので、他の変数の候補を先行研究によって列挙することは大事なのですね。

いいなと思ったら応援しよう!

この記事が参加している募集