初学者のための重回帰分析

統計を始めたばかりの文系人への、重回帰分析の簡単な解説まとめです。
私自身、統計初心者でして、こういうのがあったら助かったなと書いたものですので、なにか間違いがあるかもしれません。参考にしたサイト、書籍を載せていますので、そちらもご確認ください。

回帰分析

2つの変数𝒙 ,𝒚があるとき、 𝒙 から 𝒚 を説明したり予測したりする分析
cf. (相関分析:2つを対等に扱い相互の関連性の強さを表す分析)

相関の高い2変数のデータは、相関が高いほど線形にまとまり、相関係数1で一直線上に並ぶ
→一次方程式で表現できるのでは?(非線形の回帰分析もある)

画像1

画像2

画像19

上のグラフのように、予測されたyᵢの値と実測値のyᵢの値で残差eᵢを定義する。
また、^は、予測値や推定値であることを示す。

画像4

この残差の合計が小さいほど上手く近似できているはず。
残差は負の値もとるので、二乗して足しあわせる(二乗和)。

画像6

(Σに関する和の範囲は省略するが、以降全てiは1からnまで動くものとする)

式を見ればわかるとおり、これは変数が二つ(x, y)の二次方程式である。
二次方程式は、微分して代入したときに0をとる値で最小値を取る。
この、二乗和の最小値を求める手法を

最小二乗法

と言う。
今回は変数が2つあるので、片方を定数としてもう片方を微分する作業(偏微分)を、両方の変数に行う。=0とし、連立方程式がたてられる。

画像6

これを解くと

画像9

が得られる。

Σ付きの連立方程式は、行列を使えば解けます。文系には手が出ません。
と思いきや、式変形で解けるそう(最小二乗法の式の導出と例題 – 最小二乗法と回帰直線を思い通りに使えるようになろう)。ただし、サイト中の式変形の途中に誤り(おそらく表記ミス)があるので要注意です。変形に大きな飛躍はないので、自分でも手を動かしていたら気づけます。

ここからしばらく画像で解説されているところは、興味のある人以外は読み飛ばして頂いて。

画像10

画像9

ここまで、大事なとこっちゃそうなんですけど、計算しんどいしね、読み飛ばしてもいいんじゃないかと。最後のSy=SR+Seの式が下の式に関わってきます。

画像10

観測値yの変動の大きさを表すSyは、回帰直線によって説明される部分SRと説明されない部分Seの和で表される。yの変動のうち回帰直線で説明できる割合を決定係数R²で表す。
完全に説明できるとき、Se=0となりR²=1
全く説明できないとき、SR=0となりR²=0
つまり、0≦R²≦1
R²の値が大きいほど独立変数が従属変数をよく説明している。
また、 yiとy ̂iの相関係数である重相関係数R(=√R²)は相関係数rxyの絶対値と等しい。

重回帰分析

独立変数として複数の変数を想定する場合は、以下の式をたてる。

画像11

例のごとく残差の二乗和の最小値を求めるのだけど、これを解くのは、こんどこそ無理。行列できる人はこのサイトでも参考にしてください。私もできないので、このサイトが最も詳しく丁寧かはわからないけど。
まあ、とりあえず、例えば独立変数が4つなら以下のような式が出る。

画像12

ある偏回帰係数は、対応する独立変数の値が1増加すると従属変数がどれだけ増加/減少するかを示す。
→しかし、このままでは、各変数の重要性を比較できない。

例えば、
ある20人の身長と体重について回帰分析を行った。グラフAではセンチメートル・キログラムで、グラフBではフィートとポンドでデータを取った。単位が変わると回帰係数が変わることがわかる。
→独立変数と従属変数をそれぞれ標準化する(グラフC)ことで、解決できる。(この時の係数は標準回帰係数と呼ぶ)

画像13

(例、グラフはExcelで重回帰分析(3)―標準偏回帰係数より引用)

標準化したことで得られる式は、例えば以下のようになる

画像14

画像15

データを標準化すると、このように定数項のない式がたつ。
標準偏回帰係数は、独立変数の1標準偏差あたりの増減が従属変数の1標準偏差あたりにどの程度影響しているかを示している。
→各変数の重要性が比較できる。

以下、追加です。(面倒になったのでパワポスクショ丸張り)
雑なのは面倒になっただけなので、普通に大事です。


画像16

画像17

多重共線性は、独立変数を決める際とても重要になってきます。
下の自由度調整済み決定係数もめっちゃ大事です。

画像18

有意性もちゃんと検定しないといけません。

画像19

以上です。
他にも、多重共線性を回避するためにはどうしたらいいのかとか、実際にエクセルやRなどでどういう操作をすればいいのかとか、さらに進んで確率も絡めた線形回帰”モデル”による説明(wikiとかはこれで説明してるはずです)とか、説明しないといけないことはいくつかありますが、まあここまでとりあえず知っておけばいいんじゃない?(知らんけど)ということで終わります。

参考

日本統計学会, (2020), 統計学基礎 改訂版, 東京図書株式会社
BellCurve, 27-2. 重回帰分析,統計WEB 
BellCurve, Excelで重回帰分析(3)―標準偏回帰係数,統計WEB
株式会社AVILEN, (2020), 重回帰分析とその関連用語をわかりやすく解説!, AVILEN AI Trend
株式会社ワイ・ディ・シー, (2021), 重回帰分析の課題 ~過剰適合~, YDC
株式会社ワイ・ディ・シー, (2021),重回帰分析の課題2 ~多重共線性~, YDC
yoshi, masa, (2018)最小二乗法の式の導出と例題 – 最小二乗法と回帰直線を思い通りに使えるようになろう, 数学の面白いこと・役に立つことをまとめたサイト 

全て2021/5/6閲覧

この記事が気に入ったらサポートをしてみませんか?