度数分布表から偏差値を求める #2

2020年11月28日 06:20

株式会社リュディアです。前回は度数分布表から自分の偏差値を求める方法についてまとめました。

しかしながらエクセルでの計算方法を説明しただけで数学的な背景はまとめませんでした。今回はなぜ前回にまとめた方法で偏差値が求まるのかをまとめます。題材の度数分布表を再度以下に示します。

捕捉度数分布表_パラメータ含む

また数式を使うので以下のパラメータを定義します。

i 番目の階級値を ci とします。階級値は英語で Class value なので頭文字をとって ci としています。ここでは 1 ≤ i ≤ 10 ですが一般化して扱う際には 1 ≤ i ≤ m とします。

i 番目の度数を fi とします。度数は英語で Frequency なので頭文字をとって fi としています。ci と同様1 ≤ i ≤ 10 ですが一般化して扱う際には 1 ≤ i ≤ m とします。

i番目の相対度数を ri とします。相対度数は英語で Relative frequency なので頭文字をとって ri としています。相対度数は各階級の度数を全サンプル数で割ったものです。ci と同様1 ≤ i ≤ 10 ですが一般化して扱う際には 1 ≤ i ≤ m とします。

では度数分布表から偏差値を求める方法について数学的な根拠をまとめてみます。

最初に分散の計算式を復習します。覚えていますか？サンプル値から平均を引いたものの二乗の平均が分散でしたね。サンプル数は n とし xi をサンプル値とします。

分散の式

次に各サンプルが具体的にに与えられておらず度数分布表で与えられている場合を考えます。階級に含まれるサンプルがすべて階級値に集中していると考えます。すると分散の計算式は以下のようにも記載できます。

度数分布表からの分散の式

各階級値 ci から平均値を引いて2乗し、階級値を持つと仮定した度数 fi 個をかけています。一度じっくり考えてみてください。この式をさらに変形すると以下のようになります。

度数分布表からの分散の式2

前の記事で度数分布表から分散を求める際に使っているのはこの最後の式です。エクセルの計算でまず階級値から平均値を引いて2乗しました。その結果に相対度数を掛け全体の和をとって分散を計算しました。この式の通りになってますね。分散が求まれば偏差値は計算できますね。

ただ今回の方法で求めた分散や偏差値は厳密な方法で求めた場合と比較して誤差が発生することを理解してください。理由は階級に含まれるサンプルがすべて階級値に集中していると仮定したことにあります。例えば20~29点の階級に8人がいますが、今回の仮定は8人の平均をとると階級値である 24.5になると期待しています。もしこの8人が全員 28, 29点付近に集中していた場合、逆に20, 21点付近に集中していた場合は誤差が発生します。このような誤差が発生することも理解した前提でおおよその偏差値を知る方法と理解してください。

（2021, 6/13 追記）上に記載しましたように度数分布表を使って分散や標準偏差を求めると平均的に真の値おり大きめの数字になります。それを補正する方法としてシェパードの補正法、あるいはシェパードの修正法（sheppard's correlation）がありますので参考に追記しておきます。階級の数が 12 より少ない場合に使うことを想定しているので 12 という数が補正式に埋め込まれており、h は階級の幅を示します。s' は補正済の標準偏差、s が度数分布表から求めた標準偏差です。

今回は度数分布表から偏差値を求める方法について数学的な根拠を与えました。また厳密な計算方法と比較して誤差が発生することについても言及しました。

続きはこちらからどうぞ。

では、ごきげんよう。

この記事が気に入ったらサポートをしてみませんか？