見出し画像

【統計学】データと平均と偏差の(直角)三角関係【その1 単純平均(等確率)編】

 三角関係といってもややこしいアレではありません。文字通りの三角関係、それも直角三角関係です。
 当塾の統計学の視覚化は、ここから始まりました。

分散早業公式(仮称)

 正式名称が見当たらなかったので仮称ですが、高校生も習う例の分散をやや速く計算できる「分散早業公式」があります。
 「分散は二乗の平均マイナス平均の二乗」というアレです。

$$
s^2 = \dfrac{1}{n}\sum_{i=1}^{n}{x}_i^2-m^2
$$

 統計学には使用する文字には方言があり、なかなか悩みどころですが、高校生に寄せて、$${\sigma}$$や$${\mu}$$は使わずに、以下のようにします。

  • データ数$${=n}$$

  • $${i}$$番目のデータ$${=x_i}$$

  • 平均$${=m}$$

  • 標準偏差$${=s}$$、分散$${=s^2}$$

 さてここで、分散の定義は次のとおり。

$$
s^2= \dfrac{1}{n}\sum_{i=1}^{n}({x}_i-m)^2
$$

 つまり、「それぞれのデータの平均値からのズレを二乗したもの」を足し合わせてデータ数で割ったものです。
 データと平均値のズレを「偏差」という(標準偏差とは別物)ので、これは偏差の二乗の平均と言い換えることもできますね。

分散早業公式の導出(通常版)

 早業公式の証明は、どんな教科書にもあるので割愛したいところですが、折角なので書いておきます。
 ミソは、「二番目の交差項(クロスターム)」が総和$${\Sigma}$$により「三番目の$${m^2}$$の項」の同類項となり、一つ相殺して$${m^2}$$がマイナス一つ分だけ残るところです。このような関係は統計学の中で頻繁に出てきます。本質的な問題を孕んでおり、詳しくは後述する予定です。

$$
\begin{align*}
s^2&= \dfrac{1}{n}\sum_{i=1}^{n}({x}_i-m)^2\\
      &=\dfrac{1}{n}\sum_{i=1}^{n}({x}_i^2-2m x_i +m^2)\\
      &=\dfrac{1}{n}\sum_{i=1}^{n}{x}_i^2-2m \cdot \dfrac{1}{n}\sum_{i=1}^{n} x_i +m^2 \cdot \dfrac{1}{n}\sum_{i=1}^{n}\\
\end{align*}
$$

 展開して総和$${\Sigma}$$を分け分けして$${i}$$と無関係の定数を$${\Sigma}$$の左に放り出しただけです。
 ここで、$${\dfrac{1}{n}\sum_{i=1}^{n} x_i}$$というのは、全てのデータを足してデータ数$${n}$$で割っているので、これこそ正に平均値$${m}$$です。
 また、最後の$${\sum_{i=1}^{n}}$$というのは、忘れがちですが、右側は空っぽなのではなく実は$${1}$$が残っているので、$${1}$$を$${n}$$回足すので$${n}$$になります。結局、

$$
\begin{align*}
s^2&=\dfrac{1}{n}\sum_{i=1}^{n}{x}_i^2-2m \cdot m+m^2 \cdot \dfrac{1}{n}n\\
&=\dfrac{1}{n}\sum_{i=1}^{n}{x}_i^2-2m^2+m^2\\
&=\dfrac{1}{n}\sum_{i=1}^{n}{x}_i^2-m^2\\
\end{align*}
$$

 確かに、二番目の項(クロスターム)が三番目の項と同じ$${m^2}$$の項になりました。
 これが通常の、数式による分散早業公式の導出です。多くの人が「ふーん、そうなるのね」という感想ではないでしょうか。私もはじめはそうでした。
 しかし、当塾には、「それでは納得できない」と色々と足掻いてみるという悪い癖があります。
 これって、もしかして三平方の定理?と疑問を持ったのが地獄の始まりでした。

平方和はベクトルの二乗

 少し横道に逸れます。平方和という言葉を今後使います。
 $${\sum_{i=1}^n y_i^2}$$ と書くと小難しそうですが、何のことはない、平方和とは、例えばデータが$${1,2,3}$$なら、$${1^2+2^2+3^2=14}$$のことです。
 この値ですが、今例に出した$${1,2,3}$$がベクトル$${\bm{y}=\begin{bmatrix}1\\2\\3\end{bmatrix}}$$だとすると、そのベクトルの長さ(正式にはノルム)の二乗になります。ちゃんと書くと、自分自身との内積をとることになります。

$$
|\bm{y}|^2 = \bm{y} \cdot \bm{y} =\begin{bmatrix}1\\2\\3\end{bmatrix} \cdot \begin{bmatrix}1\\2\\3\end{bmatrix}=1\cdot1 + 2\cdot2+3\cdot3 =14
$$

ベクトルの長さ

 つまり、平方和が$${|\bm{y}|^2}$$とスッキリと書けることになります。その上、幾何学的な「長さの二乗」として視覚化ができるのですから一挙両得ですね。

偏差と偏差ベクトルの導入

 ここで、先ほど言及した「偏差」に登場願います。繰り返しますが、「標準偏差」ではなく「偏差」です。
 偏差はデータの数だけありますが、標準偏差はその平方和の平均のルートで、平均と同じく、一つのデータセットに一つしかない「代表値」です。
 さて、データと平均の差$${x_i -m}$$を偏差といい、これを背番号$${i=1}$$から$${i=n}$$まで並べたものを偏差ベクトル$${\ddot{x}}$$と呼びます。
 上のドット2つは、ドイツ語でウムラウトとかポルトガル語でトレーマと呼ばれる、$${\ddot{a}}$$みたいに文字の上にチョンチョンと点が並んでいる符号です。何となく偏差っぽく離れている感じがするので本稿ではこれを用いますが、決して一般的ではないのでご留意ください。というより、偏差ベクトルに特に注目することはそもそも余りないようです(個人の感想)。

 さて、分散の定義はこうでした。

$$
s^2= \dfrac{1}{n}\sum_{i=1}^{n}({x}_i-m)^2
$$

 ここで、偏差ベクトルはこう書けます。

$$
\ddot{x}=\begin{bmatrix} x_1-m\\x_2-m\\ \cdots \\x_n-m  \end{bmatrix} 
$$

 よって分散は、偏差ベクトルを用いて

$$
s^2= \dfrac{1}{n}|\bm{\ddot{x}}|^2
$$

 と書けてしまいます。

平均値ベクトルの導入

  また、平均値ベクトル($${n}$$個の平均値$${m}$$を並べたもの)を$${\bar{\bm{x}}}$$

$$
\bar{\bm{x}}=\begin{bmatrix} m\\m\\ \cdots \\m  \end{bmatrix} 
$$

とすると、その平方和(長さの二乗)は$${nm^2}$$となります。

データ、平均、偏差ベクトルの関係

 更に、データベクトル$${\bm{x}}$$、平均ベクトル$${\bar{\bm{x}}}$$、偏差ベクトル$${\ddot{\bm{x}}}$$の三者の関係は、次のようになっています。

$$
\ddot{\bm{x}}=\begin{bmatrix} x_1-m\\x_2-m\\ \cdots \\x_n-m  \end{bmatrix} =\begin{bmatrix} x_1\\x_2\\ \cdots \\x_n \end{bmatrix}-\begin{bmatrix} m\\m\\ \cdots \\m  \end{bmatrix}=\bm{x}-\bar{\bm{x}}
$$

 要するに、$${\bm{x}=\bar{\bm{x}}+\ddot{\bm{x}}}$$ということで、ある意味当然の結果となります。何故なら、「平均」に「平均からのズレ」を足せば「元のデータ」になるに決まっていますからね。

データ、平均、偏差ベクトルの関係

 上の関係を見てみると、$${\bm{x}=\bar{\bm{x}}+\ddot{\bm{x}}}$$です。
 ここで、早業公式$${s^2=\dfrac{1}{n}|\ddot{\bm{x}}|^2=\dfrac{1}{n}|\bm{x}|^2-m^2}$$を少し変形して

$$
|\bm{x}|^2=|\ddot{\bm{x}}|^2+nm^2
$$

となり、更に

$$
|\bar{\bm{x}}|^2=nm^2
$$

なので、結局、$${\bm{x}=\bar{\bm{x}}+\ddot{\bm{x}}}$$かつ$${|\bm{x}|^2=|\bar{\bm{x}}|^2+|\ddot{\bm{x}}|^2}$$となっています。

 これは正に三平方の定理であり、$${\bm{x}}$$を斜辺、$${\bar{\bm{x}}}$$を隣辺、$${\ddot{\bm{x}}}$$を対辺とする直角三角形が成立していることを意味しています。

 ということは、平均ベクトル$${\bar{\bm{x}}}$$と偏差ベクトル$${\ddot{\bm{x}}}$$は直交していなければなりません。

 内積をとってみましょう。

$$
\bar{\bm{x}} \cdot \ddot{\bm{x}}
=\begin{bmatrix} m\\m\\ \cdots \\m  \end{bmatrix}
\cdot \begin{bmatrix} x_1-m\\x_2-m\\ \cdots \\x_n-m  \end{bmatrix}
=m(x_1+x_2+\cdots +x_n )-nm^2
$$

 ここで、平均はデータを全部足してデータ数で割ったものなので、

$$
\dfrac{1}{n}(x_1+x_2+\cdots +x_n)=m
$$

 これを代入すると、

$$
\bar{\bm{x}} \cdot \ddot{\bm{x}}
=m \cdot (mn)-nm^2=0
$$

 つまり、どんなデータを持ってきても、平均ベクトル$${\bar{\bm{x}}}$$と偏差ベクトル$${\ddot{\bm{x}}}$$は、必ず直交することになります。
 なので、データ・平均・偏差の三者関係は、必ず直角三角関係であると言えることになります。

 実際のデータでも、こんな感じで、$${14=12+2}$$という関係が成り立っています。

データ(1,2,3)の幾何学的構造

 (追記)インタラクティブ教材を追加しました。リンク先を開き、「データ」を動かしてみてください。

 こちらは2次元(平面)です。

こちらは3次元(空間)。

 結局、偏差を全て足し合わせると絶対ゼロになる(データの平均からの凸凹なので当たり前ですが)という縛りがあるため、偏差ベクトルは必ず平均ベクトル(三次元なら$${\begin{bmatrix}1\\1\\1\end{bmatrix}}$$)に直交する平面(三次元なら$${x+y+z=0}$$)の上にしか存在できないということが、直交することの根本的な意味となります。このことは実は統計学で大きな意味を持つこととなります。

等確率ではない場合

 この直角三角関係は、より一般的な、期待値をデータと確率の積の和で表すような場面でも成立するのでしょうか。

$$
E[X]=\sum_{i=1}^n p_i X_i
$$

 今回のように単純にデータの平均をとるような場面は、全ての$${p_i}$$が$${\dfrac{1}{n}}$$となる設定(等確率)であれば全く同じことになるのは明らかでしょう。
 問題は、等確率ではない、例えば、確率$${\dfrac{1}{3}}$$が成功、$${\dfrac{2}{3}}$$が失敗のように、確率が異なる場合でも直角三角形は成り立つのでしょうか。
 結論は、成り立ちますが、その視覚化はやや面倒です。
 その解説は、次稿
【統計学】データと平均と偏差の(直角)三角関係【その2 加重平均(非等確率)編】
で行います。

この記事が気に入ったらサポートをしてみませんか?