見出し画像

【高校情報Ⅰ・共通テスト】回帰直線・相関係数(共分散・偏差積和・最小二乗法)・散布図・時系列分析(移動平均法)についての授業

回帰直線・相関係数(共分散・偏差積和・最小二乗法)・散布図・時系列分析(移動平均法)

情報Ⅰ共通テスト対策 書籍出版します!


【資料ダウンロード】

PDFの他、パワーポイント、学習指導案 等の原本も無料提供しています。

情報教育の底上げが目的なので、資料を修正して、学校・塾(営利目的含む)の授業等で利用して頂いて問題ありません。私への連絡不要ですが、利用する際には、YouTubeチャンネル・情報Ⅰ動画教科書・IT用語動画辞典を紹介してもらえると嬉しいです。

■PowerPoint資料
https://toppakou.com/info1/download/28_時系列分析と回帰分析/28_時系列分析と回帰分析.pptx

■Excel資料
https://toppakou.com/info1/download/28_時系列分析と回帰分析/28_時系列分析と回帰分析.xlsx

■簡易学習指導案
https://toppakou.com/info1/download/28_時系列分析と回帰分析/【学習指導案】28_時系列分析と回帰分析.docx

【文字おこし】

今回は、回帰分析関連の散布図、相関係数、回帰式、最小二乗法そして時系列分析について説明していきます。


これはとあるクラスの情報と数学の試験の点数を情報の点数が低い順に並び替えた表です。
表を見ると何となく、情報の点数が低い人は数学の点数も低い
逆に情報の点数が高い人は数学の点数も高い傾向がある感じがします。
しかし、Dさんのように情報の点数が高くても数学がそれほど高くない場合もあります。

視覚的にその関係性が判断できる散布図というグラフがあります。

横軸Xを情報の点数とします。縦軸Yを数学の点数とします。

情報が55点 数学が57点のAさんは、この位置に点を描きます。
同じように他の人も点を打っていきます。

点が右肩上がりになっていることが分かります。

この散布図が右肩上がりの場合は、情報の点数が高ければ数学も点数が高いという、正の関連があります。これを正の相関といいます。
一方散布図が右肩下がりの場合、具体的には情報の点数が高ければ数学の点数は低いという負の関連があります。これを負の相関といいます。

関連には強弱があります。関連が強いほど散布図の点が線上になっていきます。
関連が弱い、又は関連が無いほど散布図の点はまばらになっていきます。


この点数や身長、体重の様な、人や集団によって異なる能力や性質のことを変数と言います。
散布図は教科書的な説明では、二つの連続変数の関連性をグラフで示したものになります。
点の散らばり具合で、2変数の関連性を視覚的に把握するために用いられます。

相関が強い場合は散布図は視覚的に相関関係が分かりやすいですが、例えばこの図の場合、右肩上がりのようには見えますが、相関が無いものと大きな違いが見いだせない人もいる可能性もあります。

そこで散布図での関連性を具体的な数値で判断できるものとして、相関係数というものが使われます。

相関係数はふたつの連続変数の直線的関連性の強さと方向性を示す数値のことになります。

今回の情報の点数を変数X、数学の点数を変数Yとすると、
相関係数はrXYと表し、―1から+1までの値をとります。
相関係数rxy=1は 完全な正の相関で、右肩上がり一直線上に並びます。
そして相関係数rxy=―1は完全な負の相関で 右肩下がりの一直線上にならびます。
相関係数rxy=0は無相関になります。

0に近づくほど、散布図からは相関関係が読み取りずらくなってきます。


――
相関関係の強さの世間相場は比較対象などによって違いがあります。
一つの目安として、プラスマイナス0.7を上回れば 比較的強い相関と言われることがあります。
プラスマイナス0.4~0.7までは中程度の相関 それ以下は、弱い相関で散布図上では相関を読み取るのは難しくなります。

今話した目安を示すのが難しい理由について、例えば、心理系の研究が扱う個々人のデータは一般的にあまり強い相関は観察されないことから+-0.4~+―0.7の相関でも強いと評価できることが多いです。
しかし、地域別の集計データや理科系の実験データは比較的高い相関が観測されることから+-0.4~+―0.7でも弱いと判断されることがあります
このような理由で、相関関係の強さの世間相場は比較対象などによって差が出てきます。

―――
 
今説明した相関係数をどのように求めるか説明していきます。
計算はいくつかの工程が必要で若干ややこしいので、別にエクセルを使って導き出す方法も後ほど説明します。
先に、計算過程の概要を実際に数値を当てはめながら説明していきます。

大きく3つのステップに分かれます。
STEP1は 偏差積和の計算
STEP2は共分散の計算
STEP3は 共分散を標準偏差の積で割り相関係数を求める
という流れです。

サンプルデータとして正の相関がある、情報と数学のテストの結果5人分を使います。
簡単にするため敢えて人数は少なくしています。

まず偏差積和の計算を行います。
偏差は値と平均点との差になります。


情報の平均点は72点なので、Aさんの情報の偏差は55-72 でー17になります。
数学の平均点は73点なので、Aさんの数学の偏差は57-73でー16になります。
それぞれの人の情報と数学の偏差を求めます。

次に各個人の求めた情報と数学偏差を掛け合わせます。
たとえばAさんの場合は-17×-16で272となります。

次にその求めた偏差の積を全て足し合わせると686になります。
これが偏差積和になります。

―――

次に共分散の計算を行います。
共分散の計算は簡単で先ほど求めた、情報と数学の偏差積和をデータの個数で割ってあげます。
偏差積和の特性上、データの個数が増すと、関連の強さとは無関係に絶対値が大きくなります。
そのため、データの個数で割って調整をします。
この値を共分散と言います。

データ個数は情報と数学を1セットとして考えてください。
今回は データ個数は5なので 5分の 偏差積和 686 で
計算結果は137.2となります。

纏めると共分散は偏差積和をN つまりデータの個数で割ったものになります。。
そしてこの共分散は相関係数の計算や後ほど説明する回帰分析で使われる値になります。

――
次に求めた共分散をもとにして相関係数を求めます。

共分散は、測定する単位によって値が大きく変わってきてしまうデメリットがあります。
たとえば今は100点満点のテストの話で進めていますが、テストが10点満点だと値が小さくなります。逆に200点満点のテストだと値が大きくなり、お互いの相関を比べることは困難になります。

そこで、先ほど話したー1から1までの共通の尺度である相関係数にしていきます。


相関係数は情報と数学それぞれの標準偏差が必要になります。
以前説明した方法で標準偏差を求めると
情報の標準偏差 は13.4
数学の標準偏差 は11.8 になります。

情報の標準偏差×数学の標準偏差 分の 先ほど求めた共分散 で相関係数を求めることができます。

計算すると0.87になり これが相関係数になります。


★★エクセル解説
共分散や相関係数はExcel関数で簡単に求めることができます。
共分散はCOVARIANCE.P(コバリアンス ドット ピー)関数を使用します。
第一引数に情報の点数を範囲指定します。
第二引数に数学の点数を範囲指定します。
先ほど地道に計算した共分散が算出されました。

相関係数は、CORREL(コリレーション・コエフィシェント)関数を利用します。
第一引数に情報の点数を範囲指定します。
第二引数に数学の点数を範囲指定します。
先ほど地道に計算した相関係数が算出されました。


―――

今説明した散布図の点の分布を貫く一本の直線を実際に描き、それを表現する数式を求めれば、一方の変数の値から他方の変数値を予想することが可能になります。
たとえば、数学と情報の試験結果に強い相関がある場合 数学が50点の場合 情報が何点かということがある程度予想可能になります。

この散布図の点の分布をつらぬく直線を回帰直線と言います。そして回帰直線を表現する数式を回帰式と呼びます。
また、Xの値でYの値を予測する場合。
Xを独立変数。 Yを従属変数と呼びます。

回帰直線の数式は一般的に Y=aX+bという形になります。
aは回帰係数といい、回帰直線の傾きを意味します。
bは切片といい、Xが0の時のYの値を意味します。


では、回帰直線はどのように描けばよいでしょうか。
自由に直線引いたら人によって変わってしまう可能性があります。
回帰直線は一定のルールが決まっており、最も一般的なルールは最小二乗法になります。
この図のように、上手く回帰直線を引いても、各点と回帰直線との間にはズレが出てきます。
最小2乗法は、回帰直線を各点とのY軸方向のずれがトータルで最も小さくなるように描く手法になります。
教科書的な表現では、誤差の2乗を合計した値が最小になるように回帰式のaとbを求めることになります。
2乗する理由は+と-を合計すると相殺されてしまうため、それを防ぐためにプラスの値で出るように2乗しています。

先ほど共分散を求めた情報と数学の5人の試験結果の回帰直線式を求めていきます。

手順は3ステップで
Step1は回帰係数aを求める
Step2は切片bをもとめて回帰式を完成させる
Step3は回帰直線を描くことです。

それぞれについて説明していきます。

まず回帰係数aは 独立変数Xの分散 分の 独立変数Xと従属変数Yの共分散 になります。
つまり、情報の分散 分の 先ほど求めた情報と数学の共分散になります。

これに当てはめると 0.7639となります。

そして切片bは従属変数Yの数学の平均値 ― (先ほど求めた)回帰係数a×独立変数Xの情報の平均値になります。

数学の平均点は73 ― 回帰係数は0.7639 × 情報の平均点72
を計算すると17.9992となります。

求めた値を回帰式に当てはめると 
Y=0.7639X+17.9992 となります。


これで回帰式が完成したので 後は任意の2点を決めてそれを定規で結べば回帰直線が出来上がります。

たとえば、Xが0のときはYは17.9992 Xが50の時はYは56.1942となり、それの点を結ぶと回帰直線が描けます。

★★エクセル解説
回帰直線はエクセルのグラフ機能で簡単に描くことができます。
まずは散布図は情報と数学の点数を範囲指定し、グラフの指定で散布図を選ぶと簡単にグラフが作成されます。

どれか1つの点の上で右クリックし、近似曲線の追加を選択します。
線形近似を選択し下の方にあるグラフに数式を表示するを選ぶと先ほどの回帰式が自動計算されて表示されます。
グラフにR2乗値を表示するにチェックして表示される値は回帰直線・回帰式の当てはまりの良さを0~1の数字で表したもので、決定係数といいます。高校情報の教科書ではここまでは言及していないので詳しい説明は割愛します。

―――

気温の変化のように 、時間と共に変動する量を時間順に並べたものを時系列データと言います。
この時系列データを分析することで、全体的な傾向を捉えたり、将来の動きを予測することができます。
時系列データの傾向を調べる方法として、細かな変動を取り除いて主な動きを明らかにするための平滑化などの方法があります。

一定時間範囲のデータの平均値をその範囲の代表値とする方法である、移動平均法について説明していきます。。

この表はある都市の2000年から2020年の各年の平均気温です。

1年ごとなので折れ線グラフはギザギザしています。

5年間を1つの単位とする移動平均を求めていきます。
アベレージ関数を使って2000年から2004年の移動平均を求めます。
次に2001年から2005年の移動平均を求めます。
オートフィルを使うと5年単位の平均の範囲も1年ずつ移動してくれるので便利です。

求めた移動平均も含めて折れ線グラフで表示します。

線が滑らかになり、気温が上昇傾向にあることが分かりやすくなりました。

今回の授業は以上になります。最後までご視聴ありがとうございました。


【解説重要用語】

散布図、正の相関、負の相関、相関係数、偏差積和、共分散、回帰分析、回帰式、最小二乗法、時系列データ、移動平均法、時系列分析

★私の目標
「とある男が授業をしてみた」 の葉一さん
https://www.youtube.com/user/toaruotokohaichi
※Google社に招待頂いた、「YouTube教育クリエイターサミット2020」で
 葉一さんと文部科学省・Google役員の対談セッションに感銘を受けて、高校情報講座スタートしています。

【参考サイト・参考文献】
数学嫌いのための社会統計学〔第2版〕
https://www.amazon.co.jp/s?k=%E7%B5%B1%E8%A8%88%E5%AD%A6+%E6%95%B0%E5%AD%A6%E5%AB%8C%E3%81%84&ref=nb_sb_noss
※佛教大学 情報科教員養成 基礎統計学のテキスト

予備校のノリで学ぶ「大学の数学・物理」 - YouTube
https://www.youtube.com/channel/UCqmWJJolqAgjIdLqK3zD1QQ

文部科学省 「情報Ⅰ」教員研修用教材
https://www.mext.go.jp/a_menu/shotou/zyouhou/detail/1416756.htm

詳細(情I703 高校情報I Python)|情報|高等学校 教科書・副教材|実教出版 (jikkyo.co.jp) 検定通過版
https://www.jikkyo.co.jp/book/detail/22023322

令和4年度新版教科書「情報Ⅰ」|高等学校 情報|日本文教出版 (nichibun-g.co.jp)検定通過版
https://www.nichibun-g.co.jp/textbooks/joho/2022_joho01_1/textbook/




この記事が気に入ったらサポートをしてみませんか?