Excelを使った統計解析(2) - データの相関と回帰分析について
E検定の学習の一環として、統計解析に関する学習を進めております。今回は相関係数の導出と、回帰分析に関する記事を書きました。
相関について
相関とは、2つのデータの関係の事です。データの関係には正の相関・負の相関の2種類があり、「勉強時間が長いと成績が上がる」、「雨の日は客足が鈍る」など、一方のデータの値が変化すると他方も規則性をもって変化する関係を指します。
相関の有無を視覚的に表すには、データを横軸・縦軸で表す散布図を使用します。
共分散と相関係数
2つのデータの関係を具体的に数値で表すには、共分散と標準偏差を使って相関係数を割り出すという作業をします。
共分散は、今回のケースでは
(勉強時間の偏差×成績の偏差)の合計 / 2つのデータの組数
という式で求めることができます。共分散はデータの偏差が大きくなるとお互いの偏差同士も比例して大きくなる、という性質を利用して相関の強さを表すという数値です。共分散の値を無単位数にするには、この値を更に
(勉強時間の標準偏差×成績の標準偏差)
で割る必要があります。この値が相関係数に相当します。共分散の値を求めるにはCOVAR関数、相関係数を求めるにはCORREL関数を使用します。
今回の場合、勉強時間と成績の間には0.94と強い正の相関があることが分かりますね。
回帰直線
次に、散布図からデータの無い部分の値を予測する方法=回帰分析のやり方を紹介します。各データとのズレを最小にする直線をひくことを回帰直線といいます。回帰直線を求めるには直線とデータとの距離が最小になる傾きと接線をもとめるという、最小2乗法を解く必要があります。Excelの場合、近似曲線を求める機能を用いれば自動で回帰直線を求めることができます。
回帰直線を求めることができたら、今度は回帰直線の傾きと切片、そして未知のデータにたいする予測値を求めるセルを制作します。
直線の傾きを求めるにはSLOPE関数、切片を求めるにはINTERCEPT関数、予測値を求めるにはFORECAST関数を使用します。FORECAST関数を使えば単価・販売数から純利益を予想するという、大変実用的なセル計算を行うことができます。
重回帰分析
回帰直線を求める際に2つのデータを使用したのと同じ要領で、3種類以上のデータを使って回帰直線・曲線を求める作業を重回帰分析と呼びます。今回は豆腐の単価・販売数に加え、広告の有無というファクターを加えてみます。
重回帰分析における傾き・切片を求めるにはLINEST関数、予測値を求めるにはTREND関数を使います。
次回は母集団と標本調査について書く予定です。お楽しみください。
この記事が気に入ったらサポートをしてみませんか?