見出し画像

単回帰分析:statsmodels OLS.summaryの各変数の意味

下記の仮説・モデルで単回帰分析(simple linear regression analysis)をしてみました。

仮説:足のサイズは身長に線形に比例する
モデル:足のサイズ = 係数a×身長 + 定数b

statsmodels内のOLS(Ordinary Least Squares)で分析しました。分散図。

画像2

result.summary()の結果が下記。(赤下線は筆者が追加)

画像1

結果より係数aは0.1480係数bは0.1093。よって

足のサイズ = 0.15×身長 + 0.1

但し、分析結果の値について検証。あんまりよくない結果でした。残念。
(下の参考記事内に各項目詳細について詳しいコメントがあるので、是非参照下さい。どの記事もとても参考になります。)

R-squared、Adj. R-squaredの二つの値がよく似ている。全然違っていると問題。但し、R-squaredの値が0.45なので1に近くなく、回帰式にあまり当てはまっていない。
F-statistic、まあまあ大きくていいが、Prob (F-statistic)が0に近くないので良くなさそう
tについて、切片と身長両方2に近くない。
P>|t|、切片の方のp値が0に近くない

OLS.summary()の各項目について

参考記事の東洋大学の用語集を引用
(下の参考記事内に各項目詳細について詳しいコメントがあるので、是非参照下さい。どの記事もとても参考になります。)

R-squared: 決定係数。被説明変数の動きのうち、説明変数の動きで説明できる割合=回帰式の当て はまりの良さを示す。1が最も良い。
F-statistic: F値。回帰式が意味があるかどうかを検定する統計量。
Prob (F-statistic): (F 検定に基づく)p 値。回帰式が意味が無い(全ての説明変数の係数がゼロである)確率。
t: t値。係数の有意性(意味がある説明変数かどうか)を検定するための統計量。 t 値=係数の推定値/係数の標準誤差。概ね 2 より大きければ良い。
P>|t|: p 値(t 検定に基づく)。説明変数として意味の無い(係数がゼロである)確率。小さければ意味のある説明変数である(「有意」である)と判断。

データについて:06.イギリスの生徒のデータ(心拍数あり)

下記サイトの、[「06.イギリスの生徒のデータ(心拍数あり)」のデータを使用。

参考記事:回帰分析I:回帰分析って何? から、最小二乗法、モデル評価、妥当性検討の実際まで (1/3)

下記の記事を参考に単回帰分析をしました。2ページ目でいくつかの項目についてわかりやすい解説があります。

参考記事:OLSのsummaryについての解説

上記の参考記事に加えて4つ紹介します。pdfが便利です!

東洋大学の経済統計分析A・B(2015年度)講義サイト

東洋大学の経済統計分析A・B(2015年度)の用語集PDF
(リンクだけだとわかりにくいので、抜粋した画像も挙げておきます。画像下のタイトル未設定というリンクがpdfへのリンクになります。)

画像3

残りは英語なんですけど、両方わかりやすいです。特にyoutubeの解説の方は15分くらいあるのですが、細かく解説してくれてとても参考になります。





この記事が気に入ったらサポートをしてみませんか?