見出し画像

♡恋愛で学ぶ統計学♡(No.7 重回帰分析の注意点:決定係数と多重共線性)

重回帰分析について

今回も、モテるために、統計を学んでいきましょう!

重回帰分析をすることができれば「因果関係」をみることができます。

例えば、以前の記事で、「モテ度」に影響を与える原因(因果関係)はなにかを探るために、あるアンケート調査の結果を行い、重回帰分析を行いました。

もしも「モテ度」に影響を与える原因はなにかが分かったら、プラスな影響を与えることを頑張ればモテるようになりますよね!

ということで、この分析結果は、ものすごく意味のあるものになるはず!

しかし、正しく分析結果を解釈できないと、とんでもないことになります(;^ω^)

今回は、重回帰分析の結果をみるときの注意点をお話ししていきます。

もし、重回帰分析ってなに?と思われたり、どんなアンケート調査をしたんだろうと興味を持たれた方は、ぜひ下の記事にも目を通していただけたら嬉しいです!(^^)/

重回帰分析を行った結果、以下のような結果になりました。

画像1

では、ここで変数名の右横にある「モテ度」の列に注目です。

「コミュ力」が「モテ度」に与える影響度は、結果をみると.724となっています。この.724が意味するのは                             「もしもコミュ力が1上がるとモテ度は0.724上がる」です。

「財力」が「モテ度」に与える影響度は、結果をみると-.127となっています。この-.127が意味するのは                             「もしも財力が1上がるとモテ度は0.127下がる」です。

つまり、ファッションへの興味度とコミュ力が、上がれば上がるほど「モテ度」も上がり財力と学力が上がれば上がるほど「モテ度」は下がっていく

という結果になっています。

はたして、この解釈でいいのでしょうか?この解釈が正しいと

「学力」と「財力」をあげればあげるほどモテないなら、逆により「バカになって」、より「貧乏になれば」モテるようになる

という主張も正しいことになってしまいます。

しかし、私の記事を見てくださった方なら、もうお分かりですよね。

この解釈は、間違いです。

なぜなら、「学力」と「財力」には「有意な差」がありませんね。

「有意な差」という言葉の意味がよく分からないよという方は、ぜひ下の記事も、一緒に読んでいただけると嬉しいです!「検定」という統計には欠かせない考え方のなかに、この言葉が使われます。

では「有意な差」について考慮した上で、この分析結果の解釈をしてみようと思います。

今回、ファッションへの興味度とコミュ力には**マークがついていて、有意水準1%で有意な差がみられている。

よって、「モテ度」には、「ファッションへの興味度」と「コミュ力」が影響しており、「コミュ力」が一番「モテ度」に大きな影響を与えている。

と解釈できます。「だから、みなさん、もてるためには、コミュ力を上げましょう!」と安易に言ってはいけません!また、そういわれても信じてはいけません!

なぜなら、重回帰分析を解釈するには、決定係数と多重共線性という2つもあわせて考える必要があります

では。まず決定係数について説明しますね。

決定係数

よく決定係数はRの2乗であらわされます。

今回の分析結果の表には「決定係数R2乗が0.976」となっています。

画像1

決定係数R2乗とは「回帰によって導いたモデルの当てはまりの良さを表現する値」のことです。つまり、この決定係数がこの重回帰分析は質の良いものかどうかを判断してくれるのです。

この決定係数の値は0~1までの範囲です。そして、この決定係数の値は下のように判断できます。

0.6以下:モデルとして意味をなしていない(全然予測できてない)
0.8以上:かなり良いモデル!※ただ0.8以下の数値であってもデータ同士の関連性が存在する場合もあるので一つの指標としてみるべき。
0.9以上:いいモデルかもしれないが、汎用性がないかも。

まず、決定係数の値が0.6以下の場合、無理やりモデルを作ったような状況で、ほとんど信用がないものになってしまいます。ですので、「モテ度」には、「ファッションへの興味度」と「コミュ力」が影響します!といっても決定係数が0.4とかであれば、あまり期待できない結果だねと判断されてしまいます

そして、逆に0.9以上だと汎用性がないかもしれないから、もう少し調査をしなければいけないという判断になります

ここで、「あれ?」と思った方もいると思います。私もはじめは「こういう数値って高ければ高いほどいいんじゃないの?」と思いました。

しかし、この決定係数の場合は違います

今回の分析結果を例に挙げながら、その理由を説明しますね。

分析結果では、「決定係数R2乗が0.976」となっています。0.9以上になっていますね。ですので、ものすごく精度のよいモデルが作れたのです。

しかし、、、精度が高すぎると逆に汎用性がなくなってしまうのです。

今回の調査は、1部の日本人だけに行っています。日本人だけで調査した場合、ものすごくよい精度でモデルがつくれた。となっても、それが外国の方にまで応用できるかはわかりませんよね、、、海外の方と日本人のモテるために必要な条件は、違っているかもしれませんし、、、

しかも、日本人のある1部の小さいデータでしか分析していません。

そうなると、この分析結果は、ある一部の日本人に特化しすぎていて、ほかに応用させにくいようなモデルになっている可能性があるということです。

このような状態のことを統計では「過学習」と言います。

ですので、決定係数は0.8以上0.9以下くらいの数値だと、なかなか汎用性がある、よいモデルになったねとなります。

過学習になったモデルを改善するには、単純にデータの量を増やすという方法があります。ほかにも方法がありますが、それはまた別の機会に!

多重共線性

続いて、「多重共線性」についてです。

これは、「説明変数間に強い相関関係がある」という意味です。

今回の例だと、説明変数は「ファッションへの興味度」と「コミュ力」と「財力」と「学力」です。

そして、もし「ファッションへの興味がある人は、外にでていろんな人と交流するし、コミュ力も高くなる」と考えると、強い相関があるかもしれません。そうなると「コミュ力」があがれば、「ファッションへの興味」もあがってしまうのは、当たり前ですよね。

ですので、本当なら「コミュ力」と「財力」と「学力」の3つで予測するべきなのに「説明変数」に「ファッションへの興味度」をいれることで、より「コミュ力」をパワーアップさせてしまいます。

ですので、「コミュ力」と「財力」と「学力」の3つで考えた場合、また分析結果が変わってくるのです。

そのため、強く関係しあっているものどうしを、重回帰分析の「説明変数」に選んではいけないのです。

では、お互いに強く関係しているかを調べる方法を説明します!

もう一度、分析結果の表を見ます。

画像1

じつは、一番右の列のVIFがお互いに強く関係しているかを調べるための基準になります。つまり、VIFは多重共線性があるかどうかを判断する値のことです。

では、どの値から多重共線性があるというのかについては、確固たるものがありません。しかし、よく言われるのは、VIFの値が10以上であると、かなりの確率で、その説明変数が多重共線性があるとなります。ですが、この10という値は経験則からくる値で、かなり甘めにみて10以上はかなり、まずい、、、と判断します。最低でも5以下にとどめたいです。ほかの学者さんでも3を超えてはいけないという意見をもっている方がいます。

とりあえず、VIFが大きくなるほど、ほかの説明変数と関連がつよくなっていくと覚えておき、もし、そうした変数があれば、共線性の関係にある変数のどちらか(または複数)を削除して、再度分析する方がよいですね!

まとめ

①重回帰分析では、解釈の仕方が大事

②重回帰分析では、回帰係数だけでなく、決定係数と多重共線性に気を付ける

③決定係数の基準は0.8以上0.9以下がベスト

④VIFの値が大きいほど多重共線性がある。そして重回帰分析では、多重共線性があってはいけない。

では、また例で使った分析結果をみると、、、「ファッションへの興味度」が怪しいですね(;^ω^)

なにかしら、ほかの「コミュ力」と「財力」と「学力」と強く関連している可能性がありますね、、、、

そうなると、、、もしかして、、、

モテるためには、「コミュ力」も「ファッションへの興味度」も関係ないのかも、、、逆に「財力」と「学力」と強く影響してくるかもしれない、、、

分析をすすめれば、すすめるほど、わからなくなってきますね、、、

こうやって統計のことばかり考えていたら、、、より非モテ化が加速しそうです(笑)







この記事が気に入ったらサポートをしてみませんか?