見出し画像

回帰分析とは(使用例・公式・注意点)

お互いに影響を与え合う値の関係性を調べる相関分析とは異なり、回帰分析では「影響を与える値」と「影響を与えられる値」の一方向の関係性を調べます。

  • 説明変数が目的変数を説明する要因である

  • xが1乗の直線の場合、線形回帰分析

    • 非線形の場合は、対数(log)をとると直線になることがある

使用例:

  • 追加の広告費用が売上にどれぐらいの影響を及ぼすか?

  • 体重と身長の間には関連性があるか?

  • 気温の変化によってどれくらいアイスの売上が変わるか?

他にも、顧客の購買行動の予測、病気のリスク評価、経済のトレンドの予測などに活用されています。

単回帰分析の基本の公式

  • 基本形 $${y = a + b*x + ε}$$

    • aは切片、bは回帰係数、εは標準誤差を表す

  • $${b = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}$$

    • xとyの共分散をxの分散で割る

  • $${a = \bar{y} - b*\bar{x}}$$

    • 単回帰分析において回帰直線はxとyとの平均値を通る

  • 標準誤差:回帰係数の推定値の誤差の大きさ

    • yの分散を観察数-2で割ったもの(残差の普遍分散または誤差の不偏分散)を、xの分散で割り、ルートをとる

    • $${SE_{b1} = \sqrt{ \frac{ \frac{1}{N - 2} \sum_{i=1}^N (y_i - \hat{y_i})^2 }{ \sum_{i=1}^N (x_i - \bar{x})^2 } } }$$

モデルの良さを評価する

  1. 決定係数 R^2:1に近いほどモデルがデータに適合している

    • 1-残差平方和/全変動平方和

    • $${R^2 = 1 - \frac{SS_{res}}{SS_{tot}}}$$

    • たとえば、R2=0.8の場合、モデルは全体の変動の80%を説明でき、残りの20%はモデルに含まれない他の要因によって生じている

    • 説明変数が増えると決定係数は高くなるので、重回帰分析の場合は自由度調整済み決定係数を利用する

    • 単回帰係数の場合、相関係数の二乗が決定係数になる($${R^2 = r^2}$$)

  2. t統計量: 説明変数の係数が統計的に有意であるかどうか判断する指標。値が大きいほど、係数が0である可能性が低くなる。

    • 回帰係数/標準誤差

    • $${t = \frac{b - 0}{SE_b}}$$

    • 自由度はn-(k+1)…kは説明変数の数、1は切片の分

  3. F統計量: 全体の回帰モデルが統計的に有意であるかどうか(説明変数にかかるすべての係数が0かどうか)。この値が大きく、関連するp値(p-value)が小さいほど、モデルは統計的に有意

重回帰分析について

  • 説明変数を増やすと決定係数は必ず増加してしまう傾向があ流。そのため、説明変数が多いモデルを評価する際には説明変数の数を考慮に入れた調整済み決定係数(Adj.R2)を使用する

  • 各説明変数の有意性は、単回帰分析と同じくt統計量を使用する

  • モデル全体の性能(全ての説明変数が合わせて目的変数に対し有意な影響を持つかどうか)を評価するために、F検定を用いる

回帰分析の注意点

  • データに外れ値が含まれていると、回帰直線の推定が誤る可能性があり

  • 説明変数と目的変数の間に多重共線性(ある説明変数が他の説明変数と高い相関関係を持っていること)があると、回帰直線の推定が誤る可能性がある

  • 回帰分析は、過去のデータに基づいて推定されたモデルであるため、将来の値を完全に予測することはできない

  • 回帰直線は、推定されたデータの範囲内では有効であるが、推定されたデータの範囲外では外挿を行うことができない

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?