見出し画像

統計学の基本:分散の理解その2

前回は偏差について学びましたね。偏差とは、データが平均値からどれだけ離れているかを示す値です。偏差が大きいほど、データは平均値から離れており、ばらつきが大きいと言えます。これは、投資でいえばリスクが高いことを意味します。しかし、偏差だけでは全体のデータがどの程度ばらついいているかをつかむことができません。そこで、全体としてのデータのばらつきを示す方法を考えてみましょう。

分散の考え方

もし単純に偏差の平均をとればどうでしょうか。先ほどのファンドAの例を見てみましょう。

2000年 10,000円
2001年 10,350円 年間利率: 3.5% → 平均との差:-1.5%
2002年 10,557円 年間利率: 2.0% → 平均との差:-3.0% 
2003年 11,402円 年間利率: 8.0% → 平均との差: 3.0%
2004年 11,516円 年間利率: 1.0% → 平均との差:-4.0%
2005年 12,746円 年間利率:10.7% → 平均との差: 5.5%

$$
\begin{array}{}
\frac{(-1.5)+(-3.0)+(3.0)+(-4.0)+(5.5)}{5}=0
\end{array}
$$

計算した結果、合計は0になってしまいました。これは、正の偏差と負の偏差が打ち消しあってしまうためです。

偏差の2乗を平均する

では、どうすれば良いのでしょうか。次に考える方法は、偏差を2乗し平均をとる方法です。また、ファンドAの例を見てみましょう。

$$
\begin{array}{}
\frac{(-1.5)^2+(-3.0)^2+(3.0)^2+(-4.0)^2+(5.5)^2}{5}=13.3
\end{array}
$$

この方法では、マイナスの値が問題にならずに、全データのばらつきを測定することができます。2乗を用いる理由は、数学的な扱いやすく、統計的な分析をしやすくするためです。絶対値を用いる方法もありますが、2乗の方が計算がしやすく、広く採用されています。

これで分散についての説明は終了です。平均と分散を用いることで、データの期待値とばらつきがどのように表されるかが理解できます。