回帰分析とは（使用例・公式・注意点）

2023年11月2日 17:46

お互いに影響を与え合う値の関係性を調べる相関分析とは異なり、回帰分析では「影響を与える値」と「影響を与えられる値」の一方向の関係性を調べます。

他にも、顧客の購買行動の予測、病気のリスク評価、経済のトレンドの予測などに活用されています。

基本形 $${y = a + b*x + ε}$$
- aは切片、bは回帰係数、εは標準誤差を表す
$${b = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}$$
- xとyの共分散をxの分散で割る
$${a = \bar{y} - b*\bar{x}}$$
- 単回帰分析において回帰直線はxとyとの平均値を通る
標準誤差：回帰係数の推定値の誤差の大きさ
- yの分散を観察数-2で割ったもの（残差の普遍分散または誤差の不偏分散）を、xの分散で割り、ルートをとる
- $${SE_{b1} = \sqrt{ \frac{ \frac{1}{N - 2} \sum_{i=1}^N (y_i - \hat{y_i})^2 }{ \sum_{i=1}^N (x_i - \bar{x})^2 } } }$$

決定係数 R^2:1に近いほどモデルがデータに適合している
- 1-残差平方和/全変動平方和
- $${R^2 = 1 - \frac{SS_{res}}{SS_{tot}}}$$
- たとえば、R2=0.8の場合、モデルは全体の変動の80%を説明でき、残りの20%はモデルに含まれない他の要因によって生じている
- 説明変数が増えると決定係数は高くなるので、重回帰分析の場合は自由度調整済み決定係数を利用する
- 単回帰係数の場合、相関係数の二乗が決定係数になる（$${R^2 = r^2}$$）
t統計量: 説明変数の係数が統計的に有意であるかどうか判断する指標。値が大きいほど、係数が0である可能性が低くなる。
- 回帰係数/標準誤差
- $${t = \frac{b - 0}{SE_b}}$$
- 自由度はn-(k+1)…kは説明変数の数、1は切片の分
F統計量: 全体の回帰モデルが統計的に有意であるかどうか（説明変数にかかるすべての係数が０かどうか）。この値が大きく、関連するp値（p-value）が小さいほど、モデルは統計的に有意。

説明変数を増やすと決定係数は必ず増加してしまう傾向があ流。そのため、説明変数が多いモデルを評価する際には説明変数の数を考慮に入れた調整済み決定係数（Adj.R2）を使用する
各説明変数の有意性は、単回帰分析と同じくt統計量を使用する
モデル全体の性能（全ての説明変数が合わせて目的変数に対し有意な影響を持つかどうか）を評価するために、F検定を用いる

この記事が参加している募集

#勉強記録

4,547件

この記事が気に入ったらサポートをしてみませんか？