見出し画像

教養としての統計学~偏差値って何?~

皆さんは偏差値がどのような概念であるか知っていますか??
「テストの点数がどれくらい良いものかを測るための数値」というイメージを持っている方が多いのではないかと思います。あとは「50が平均」という断片的な知識を持っている方も多いかも?
当記事では、「偏差値ってなに?」という疑問を、少々の統計学の知識を用いて数学的なアプローチで解決していこうと思います!

確率変数って?

まず、確率変数というものが何なのかを簡単に理解してもらいたいと思います。

確率変数(Random Variable)とは、ある試行によって得られるすべての結果を指す変数であり、実際に試行、観測を行うまで何の結果が得られるか分からないものです。
数学における変数は通常x=5やy=±3 などといったように、決まった値が定められています。しかし、確率論における確率変数は何かの試行を行い、その値が観測されるまでどの数字になるか決まっていません。
通常、確率変数はX, Y ,Z などアルファベットの大文字で表現します。

https://toukei.link/basicprobability/randomvariable/

例えば、サイコロの目を表す確率変数Xがあるとすれば、Xは1~6のどれかの値を取りますよね。これが上記引用文で言及されている、「観測されるまでどの数字になるか決まっていない」ということです。
確率変数Xが正規分布に従うと言えば、正規分布に則った確率でXの具体的な数値が観測される、ということになります。(正規分布については後ほど。)
確率変数は意外と概念的に難しいんです…この記事を読む上では厳密に理解する必要はないので、心配は不要です!

正規分布とは

正規分布とは、確率分布と呼ばれるものの一種で、見た目がつりがね型をしている分布です。

標準正規分布と呼ばれる正規分布の最も代表的な形です。
後ほどこの画像はもう一度出てきます。

人によってはガウス分布、ベルカーブという単語を聞いたことがあるかもしれません。それらは全て正規分布(もしくはその関数)を指す言葉です。
上記のグラフは確率密度関数といい(覚えなくても大丈夫です)、このグラフの面積(積分値)が確率を表します
標準正規分布に従う確率変数Xの場合、例えば$${X}$$が$${-1.96}$$~$${1.96}$$に収まる確率は95%です。なぜこんなにもややこしい言い方になるのかというと、正規分布の場合、$${X}$$がある一つの値(例えば$${X=0}$$)を取る確率が0だからです。

面積が確率を表すから、区間に幅を持たせてあげないとダメ
引用元:高校数学の基本問題

面積が確率を表す、というのはこういうことです。$${X>1}$$となる確率や、$${-1<}$$$${X<1}$$となる確率、などという風に考えます。

次に、平均、分散、標準偏差の意味と正規分布上での扱いについて簡単に。
正規分布における平均は、ベルカーブの一番盛り上がっている部分を指します。分散は、データの散らばり具合を指し、正規分布上では、分散が大きくなるとベルカーブの頂点が低くなり、曲がり方がなだらかになっていきます。標準偏差は分散を1/2乗したものです。
正規分布のうち、平均が0、分散が1のものを特に標準正規分布と言います。

偏差値計算”の”意味

次に、偏差値を求める計算式を見ていきましょう。イメージしやすいよう、なんらかのテストの点数について考えていくことにします。
前提として、テストの点数は正規分布に従うとされています
求める偏差値をT、偏差値を求めたい点数(自分の点数である場合が多い)を$${X}$$、平均点を$${μ}$$、標準偏差を$${σ}$$とします。

$${T=(X-μ)/σ×10+50}$$

上記の式で偏差値は算出されています。ここで、この式の意味を考えていきましょう。
まず、前提条件に従い、$${X}$$は平均$${μ}$$、分散$${σ^2}$$の正規分布に従う確率変数です。これを$${X}$$~$${N(μ,σ^2)}$$と表します。$${(X-μ)/σ}$$は、$${X}$$の標準化($${X}$$を標準正規分布にすること)を行っているのです。
すると、$${(X-μ)/σ}$$~$${N(0,1)}$$と表せます。
$${N(0,1)}$$は平均0、分散1の正規分布、つまり標準正規分布という意味です。

ここからは、$${(X-μ)/σ}$$に10を掛けて50を足しています。まず、10を掛けた場合平均は10倍、分散は100倍になります。50を足した場合平均は+50、分散は変わりません。
すると偏差値$${T}$$は平均50、分散100の正規分布に従うことになります。
$${T}$$~$${N(50,100)}$$と表すこともできます。

つまり、偏差値の計算は何をしているのかというと、正規分布に従う任意の確率変数$${X}$$を、平均$${50}$$分散$${100}$$の正規分布に従うように変形している、ということなんです!
つまりどういうことだ…?

偏差値計算”をする”意味

先ほどちらっと触れた標準化、というものがありましたよね?
テストの点数を標準化して標準正規分布に従うようにしてあげると、その点数がどのくらいすごいのかわかる、つまり「その点数は上位何パーセントなのか」がわかるんです!

ここで、「そんなの何位か数えればわかるよ」という声が聞こえてきそうですが、今回の計算は、「テストを受けた人の中で上位何パーセントかを明らかにしているわけではない」のです!!ここは非常に重要です!!
今回の計算でわかるのは、「テストを受けていない人がいることも考慮して、あなたが上位何パーセントに位置するのか」なんです!
そのために統計学を使ってるんですね。

そしてもう一つ疑問が。「標準化すれば上位何パーセントかわかるなら、掛ける10と足す50要らなくね?」という疑問。実際、要らないと言えば要りません。
ですが、標準化しただけの数値って、すっごく分かりづらいんです。一例ですが、50点と100点の人同士比較しても、それぞれの点数を標準化した数値の差は1もなかったりします。さすがにそれじゃあ分かりづらすぎますよね。

標準正規分布の画像です。
x軸を見てもらうと、数値の差が全然ないですよね。


そこで、一旦点数のすごさがわかりやすい状態にしてから、それを人に伝わりやすくするための恣意的な操作として10を掛けて50を足し、偏差値という数値を作ってるんです。

偏差値Tが従う平均50分散100の正規分布の画像です。
これでだいぶ直感的な数値になりますね!

具体的には、偏差値が69.6だとぴったり上位2.5%。62.8でだいたい上位10%、60.4でだいたい上位15%、58.4でだいたい上位20%となります。

まとめると、偏差値というものは、「テストを受けていない人も考慮した、比較しやすい数値」だということです!

まとめ

偏差値はこのようにして作られているんだよ、というお話でした。この記事で統計学の面白さを知ってもらい、学校の統計の授業を興味をもって聞く方が少しでも増えれば本望です。
最後まで読んでくださりありがとうございました!

この記事が気に入ったらサポートをしてみませんか?