見出し画像

〚少子化論〛出生率と進学率の相関分析をやってみた📉

春のQC検定を受けようか否か考えておりますが、受験検討にあたって統計学をどこまでできるようになるかが鍵になると思います。
今回は記述統計学をおさらいする意味合いも兼ねて、少子化対策としての大学無償化を相関分析を使って考えてみたいと思います。

ぶっちゃけ久々に相関分析をやるので自信があまりありませんが、スプレッドシートで進学率と出生率に相関性があるかを検討してみたいと思います。


📉相関性はある

まず結論から先には話すと、出生率と進学率の間には相関性があります。
令和2年の出生率と進学率を拾い、それぞれxとyをあてはめます。

令和2年における各都道府県の出生率と進学率

相関分析をするために使うグラフは散布図なので、散布図を作りました。

Open Xlsx Plusで作成した散布図

但し、スプレッドシートで作成したこの散布図は、正直言って悪いです。
本当なら散布図も真ん中を起点にx軸とy軸を設ける必要がありますが、この散布図は到底散布図と呼ぶには見るに堪えない(なんの相関性も把握できない)点の集まりでしかありません。
というかコレ、散布図の体裁を成しておりませんな…。

と言ってもソフトの機能で私の意図した通りの散布図を作れませんで、仕方なく相関分析を使うことによって当てはめることとします。

📊相関分析をやってみる

さて、相関分析で最初にやることは、次の3つの値を求めることです。

⓵Sxx
⓶Syy
⓷Sxy

まずSxxを求めます。
Sxxはx²‐Σx²÷nで出します。
もう初めて統計学やるときは「Σってなんやねん👿」って気分でした。
Σって言うのは総計みたいなもんです。
nと言うのはサンプルサイズを指します。
今回は47都道府県がサンプルサイズのためn=47です。
なので67.81²÷47=97.83395957446809を出すことができます。
98.8235-97.83395957446809=0.98954042553191で、これがSxxです。

次にSyyですが、同じ要領でy²-Σy²÷nでやっていきましょう。
24.579²÷47=12.85377108510638となります。
13.046399-12.85377108510638=0.19262791489362となります。

続くSxyはSxy²-(Σx×Σy)÷nです。
67.81×24.579÷47=35.46174446808511を先にだします。
35.22021-35.46174446808511=-0.24153446808511となりました。

次のステップとして、相関係数rを求めます。
ここが結構相関分析の公式で覚え辛い公式の1つなのですが・・・。

相関係数rを求める公式…

Sxxの平方根は0.9947564654386067。
Syyの平方根は0.4388939677115875。
両者をかけると0.4365926120231048になります。

-0.24153446808511÷0.4365926120231048≒-0.5532261917256809。
よし、じゃあこれで相関関係を示せた!!
と言いたいところですが、本当に相関関係があるかの分析には、この結果を基に無相関の検定を行います。
この検定がまた覚え辛い公式なのですが、検定の公式はこうなります。

相関分析における自由度の考え方はn-2なんですね

先ほど割り出した相関係数が検定をするための材料になるわけです。
では計算していきましょう。
1-r²の平方根は0.8330310803257584となりました。

サンプルサイズは47都道府県なので45の平方根に相関係数rを掛けます。
0.5532261917256809×√45=3.711154114895863です。

3.711154114895863÷0.8330310803257584=4.455000782737433
もう小数点第4位を四捨五入して4.455としましょう。
相関分析で行われる検定はt検定と呼ばれるものです。
そのため、ここではt分布の表を使います。

言い忘れましたが、この検定をするときは帰無仮説と対立仮説を立てる必要があります。
帰無仮説は出生率と進学率に相関関係はないと言う仮説。
対立仮説は出生率と進学率に相関関係があると言う仮説となります。
なので検定としては両側検定をすることになる(と思う)のですが、如何せんサンプルサイズが大き過ぎます・・・。

なお、t分布表を見て、そこで定められた数字が棄却限界値となります。
ではt分布表のサンプルサイズー2=45となる場所を見て見ましょう。

この表は下記サイトから転載しました。

自由度45の両側検定の棄却限界値が帰無仮説の成立する数字です。
今回は棄却限界値2.0141より検定値4.455が上回ります。
(基本的にQC検定2級では信頼率95%で出題されることが多い)
このことから、出生率と進学率には相関関係があるということが解ります。

相関係数はマイナスになりますから、出生率と進学率はマイナスの相関になる、即ち進学率が上がると出生率は下がるということが考えられます。

尤も、相関度は0.5を少し超えた程度です。
東北のデータを見ればわかりますが、気候もまた出生率に影響していることが想定できるので、単純に進学率だけが出生率に作用するわけでは無いと言うことです。

尤も、本データを取る目的は「少子化対策として高等教育無償化をやる意味はあるのか」を検討する材料を取ることです。
その目的で出した相関分析ですが、果たして高等教育無償化は少子化対策になるのかということについては、下記の記事を参照いただけると幸いです。


#やってみた


この記事が参加している募集

やってみた

ご一読ありがとうございます。お読みいただいた記事がもし無料、あるいは価格以上の価値があると思ったら、フォローならびに、サポートいただけますと幸いです。