難関大進学率の推定値の誤差(残差)の分析
過去に行った推定の誤差(残差)の分析の第2弾です。今回は難関大進学率の回帰推定値を取り扱います。
1. 誤差の発生メカニズム
難関大進学率は、東京一工 + 国公立医医 + 地帝5大学 + 早慶の進学率を推定したものです。国公立医医には防衛医大も含めています。進学率は5年平均で現役・浪人合算で計算しています。推定した数値は前回記事の通り、このグラフの値となります。
ただ、国公立は進学数=合格数、早慶は進学数=合格数×本命率で計算しているため、この進学数の計上の際に誤差が生じます。特に本命率は現役・浪人合算の本命率がほぼ入手できません。
この早慶本命率をどうするかが鍵になるのですが、現役の本命率は数百校レベルで入手できます。ただ、全5年分は入手できなかったため、2022年度の現役本命率が入手できた場合は、その値に浪人分を補正した値を5年平均に一律適用しています。現役本命率を入手できない学校は、入試の偏差値からの本命率の回帰予測値を概数で適用しています。
このように、この個々の学校の進学率を推定する際の数字計上時点で、誤差が出てしまいます。この誤差が個々の学校の進学率を推定する際の誤差です。
その上で、そうして推定した学校ごとの入試偏差値と難関大学進学率(推定値)の分布から、入試偏差値に対する難関大学進学率の回帰モデルを作っています。具体的には、このようになります。
この回帰モデルを実際に現役・浪人合算の学校の進学率と対比すると、回帰予測値と進学率の実際値には残差が出ます。これが回帰モデルから予測する際の誤差(残差)です。
2. 検証の対象高校
今回の誤差の検証にあたり、現役・浪人含めた進学率のデータを入手できる学校の洗い出しが必要になります。こちらのサイトに掲載の高校から、現役進学数だけでなく、浪人の進学数も公表している学校を抽出すると、このようになります。データは直近から取れる範囲で最大6年分を対象としてます。
<高校受験あり> ()内はデータの年数
開成(6)、筑波大駒場(1)、学芸大附属(6)、柏(1)、船橋(3)、浦和一女子(3)、大宮(3)、春日部(1)
<中学受験あり> ()内はデータの年数
開成(6)、晃華学園(3)、筑波大駒場(1)、学芸大附属(6)、頌栄女子(3)、武蔵(3)、栄光学院(1)、サレジオ学院(1)、東洋英和学院(4)
太文字の5校(開成・筑波大駒場・筑波大附属・頌栄女子・武蔵)は、個々の進学率の推定も行ったため、その誤差も計算して検証してみます。
3. 誤差(残差)の算定
①個々の推定値との誤差
開成・筑波大駒場・筑波大附属の3校について、個々に推定した難関大学進学率と実際の進学率の誤差の一覧にすると、この表となります。
右から2番目が誤差=実際の進学率ー個々に推定した進学率です。複数年を入手できた学校の平均欄(グリーン行)も入れています。
まず、筑波大駒場以外の4校は複数年度のデータがあるため、それぞれ縦に眺めると、年度によってブレがあることが確認できます。例えば、開成の難関大進学率は73〜92%に分布しています。平均値との差の絶対の平均は5%でした。実際の難関大学進学率は、同じ学校でも年度によって±5%くらいの変動は普通にあるようです。おそらく浪人の多寡が当年と翌年に影響を与えるのだろうと推察できます。
次に、平均値の誤差を見ていきます。例えば、開成で誤差は推定進学率88%(0.88)に対して、実際の進学率は81%(0.81)で、誤差は-6%(-0.06)です。同様に他の学校の誤差を見ると、筑波大駒場:-6%(-0.06)、学芸大附属:-3%(0.03)、頌栄女子:+10%(+0.10)、武蔵:-7%(−0.07)とそれぞれ誤差は出ています。
全体傾向を見るために、5校の卒業数加重平均を計算したのが最後の行で、5校平均の推定進学率68%(0.68)に対して、実際の進学率65%(0.65)であり誤差は-3%(-0.03)でした。逆に言えば、推定値は実際値に対して+3%(+0.03)の上振れをしているようです。
②回帰予測値との残差(高校受験モデル)
高校受験のある対象校について、駿台中学生テスト確実圏偏差値(2022年12月調査)から回帰予測された進学率と実際の進学率の残差を整理すると、この表となります。
左から3列目が、確実圏偏差値から回帰予測した難関大学進学率の予測値です。これと実際値の残差が右から2列目です。高校によって凸凹していますが、最下段にあるように、卒業数で加重平均した残差は-4%(-0.04)でした。
③回帰予測値との残差(中学受験モデル)
高校受験のある対象校について、駿台中学生テスト確実圏偏差値(2022年12月調査)から回帰予測された進学率と実際の進学率の残差を整理すると、この表となります。
高校受験の入試偏差値からの回帰予測よりも、学校ごとの凸凹が大きく、晃華学園(平均残差-11%)、学芸大附属(同+19%)、頌栄女子(同+11%)などが目立ちます。晃華学園と頌栄女子は難関大進学数に占める早慶比率が大きいので、この辺りが影響してそうです。学芸大附属は高校への内部進学テストで、中学と高校の母集団が変わる影響と思います。
卒業数で加重平均した残差は+8%(+0.08)とやや大きめです。ただ、内部進学の特殊ケースの学芸大附属を除くと、平均誤差は+5%(+0.05)となります。
4. 誤差(残差)の評価
まず、個々の学校の推定値との誤差の評価です。平均誤差は-3%(-0.03)でした。この値は年度のブレ幅の±5%(±0.05)の中に収まります。そのため、年度変動と推定誤差が±5%(±0.05)くらいある前提で、個々の学校ごとに推定した難関大進学率はグラフの数字を概数と見て、大きな問題はないと考えます。
次に回帰モデルの誤差(残差)の評価です。高校受験モデルで平均誤差は-4%(-0.04)、学芸大附属を除く中学モデルの平均誤差は+5%(+0.05)です。試しに残差の散布図を作るとこうなります。
箱ひげ図とは少し違いますが、残差のブレが大きい高校と少ない高校が見て取れると思います。高校ごとの残差の平均値がオレンジの×印です。+10%超や-10%未満の学校も散見されますが、大半は中央の0%前後の±5%のゾーンに集まっている印象です。この±5%(±0.05)は学校ごとの年度のブレとほぼ同じです。
そのため、回帰モデルについても、年度変動と推定誤差が±5%(±0.05)くらいある前提で、受験の偏差値を使って回帰式から予測した難関大進学率は概数として採用しても、大きな問題はないと考えます。
一方、回帰モデルは早慶レベルに相当する高校入試/中学入試の偏差値の推定に用いてます。
高校入試時点でみた大学入試の早慶のレベル(難関大学進学率からの算定)
=駿台中学生テストの確実圏偏差値で60.5の高校中学入試時点でみた大学入試の早慶のレベル(難関大学進学率からの算定)
=志望校判定サピックスオープンの80%偏差値で57.5の中学
この時、それぞれの難関大学進学率が±5%ズレると、高校入試時点でみた大学入試の早慶レベルの偏差値は±1、中学入試時点でみた大学入試の早慶のレベルは±2のズレが生じます。
高校/中学入試時点でみた大学入試の早慶レベルの数値は、その後の「附属校プレミアム」の分析に用いています。もし、それぞれ±1、±2の誤差がある場合、附属校プレミアムの数値に、それなりに影響を及ぼす可能性はあります。これはもう少し落ち着いて分析が必要と考えます。
5. 最後に
2回に渡って、過去の推定の誤差(残差)の検証を行ってきました。元々が精度に拘らない大まかな推定だったので、当然のこととして誤差はあるのですが、思ったほど悪くない範囲に収まったかなぁ、という印象はあります。
ただ、別の分析の基礎データとして使う場合、誤差が誤差を生む可能性もあり、推定値はもう少し精査すべきだなぁ、と改めて思いました。
この記事が気に入ったらサポートをしてみませんか?