【統計学】観測値・平均・偏差、実は直角三角関係【その2 】
今回のあらすじ
全ての確率が等しい訳ではない場合での観測値・平均・偏差の直角三角関係を示したい。
名前がないと不便なので、全ての確率が等しい場面を「均質確率空間」、それ以外を「不均質確率空間」と名づける。前回は、均質確率空間での直角三角関係を示したことになる。
不均質確率空間でも分散早業公式は成り立つが、そのままでは直角三角関係を示せない。
仕方ないので確率の平方根「根確率」や「加重観測値」を導入してやっとこさ直角三角関係を絵にすることができた。
仕方なく導入した根確率等は意外といいかも知れない。
均質確率空間・不均質確率空間の導入
いわゆる平均=単純平均
はじめに、「普通に平均をとること」と「確率」の関係を整理しておきましょう。
前回のように、値を足し合わせて頭数で割って出す普通の平均を単純平均又は算術平均と言います。普通にイメージする「平均」ですね。
$$
m_{単純}=\dfrac{1}{n}\sum_{i=1}^n x_i
$$
前回は、このような単純平均の場面で、観測値ベクトル$${\bm{x}}$$、平均ベクトル$${\bar{\bm{x}}}$$、偏差ベクトル$${\ddot{\bm{x}}}$$が直角三角関係にあることを示しました。
期待値=加重平均
一方、値$${x_i}$$にそれぞれ重み$${w_i}$$をつけ、その合計$${W=\sum_{i=1}^n w_i}$$を重みの合計で割る平均を加重平均と言います。
A組とB組それぞれのテストの平均点が分かっていて、A組とB組合わせた全員の平均点が欲しい時、単純に足して2で割ったら怒られるアレです。重みをつけるか、一回全員の点数をバラして足して人数で割るかしないと間違った値になります。例外は、両組の人数がたまたま同じだったとき。これは単純に足して2で割っても大丈夫です。
式で表してみます。
$$
m_{加重}=\dfrac{\sum_{i=1}^n w_i x_i}{W}\\
m_{加重}=\sum_{i=1}^n \dfrac{w_i }{W} x_i
$$
どの項も共通して$${W}$$で割ることになります。ここで、それぞれの重み$${w_i}$$の重みの合計$${W}$$に対する比率を$${p_i=\dfrac{w_i}{W}}$$とすると、
$$
m_{加重}=\sum_{i=1}^n p_i x_i
$$
これは、いわゆる期待値と同じ構造になっています。期待値とは、「事象に設定された値$${x_i}$$」に「その事象の発生する確率$${p_i}$$」をかけたものを足し合わせたものですので。
$$
E[X]=\sum_{i=1}^n p_i x_i
$$
つまり何のことはない、期待値についている「確率」は、加重平均の「重み」そのものということになります。そりゃそうですよね。言い換えると、期待値とは加重平均であると言ってもいいかと思います。
単純平均は加重平均の一種
ここで、加重平均の全ての重み(加重)が同じ$${w}$$である場面を想像しましょう。サイコロを想像すれば大体合っていると思います。
$$
W=\sum_{i=1}^n w=nw
$$
同じ加重が$${n}$$個で全体になるのは当たり前ですよね。
この時の加重平均は、
$$
\begin{align*}
m_{加重}=&\dfrac{\sum_{i=1}^n w x_i}{W}\\
=& \dfrac{w}{W} \sum_{i=1}^n x_i\\
=& \dfrac{w}{nw} \sum_{i=1}^n x_i\\
=& \dfrac{1}{n} \sum_{i=1}^n x_i =m_{単純} \
\end{align*}
$$
単純平均と同じになります。
「単純平均=たまたま全ての加重が等しい加重平均」、つまり加重平均の特別な場合ということです。
例えが適切かどうか分かりませんが、「菱形=たまたま全ての辺の長さが等しい平行四辺形」というのと似ていますね。
そして、サイコロも(変な細工がしていなければ)全ての加重が$${1/6}$$なので、サイコロを振った時の期待値は、サイコロの目の平均($${(1+2+3+4+5+6)/6}$$)と一致して$${7/2}$$となる訳です。
「均質確率空間」と「不均質確率空間」
ここで、単純平均をとる場合は確率が全て等しいので、これを「均質確率空間」、それ以外を「不均質確率空間」と呼ぶことにします。
「空間」という用語は、数学では「集合」と同じような感じで、ただ集まっているだけではなく内部に何らかの仕組みや構造があるモノ、的な理解で良いかなと思いますが専門家の方間違っていたら先に謝っておきます。
ここでは、確率の値の組み合わせで構成される平面とか空間くらいの気持ちで定義しています。
用語は小難しそうですが、要するに、事象の確率が一つでも異なっていれば、その確率を用いる場面を不均質確率空間と呼ぶことにするだけです。
2データの期待値での直角三角関係
結論と準備
さて、より一般的な、期待値をデータと確率の積の和で表すような場面でも一般的にこの直角三角関係は成立するのかどうかが前回の問いでした。
そして結論は「できる」。しかし少し面倒、ということも宣言しておきました。
これを示すのに、まずはデータ2つの簡単な例から参りましょう。たった2つであっても立派なデータです。
得られた観測値の1つ目、2つ目を$${x_1,x_2}$$と背番号をつけ、ベクトルで表します。これを観測値ベクトル$${\bm{x}}$$と呼ぶことにします。
$$
\bm{x}=\begin{pmatrix} x_1 \\ x_2 \end{pmatrix}=\begin{pmatrix} 1 \\ 3 \end{pmatrix}
$$
$${x_1,x_2}$$に対応する確率を$${p_1,p_2}$$としてベクトルで表すと、次のようになります。これを確率ベクトル$${\bm{p}}$$と呼ぶことにします。
$$
\bm{p}=\begin{pmatrix} p_1 \\ p_2 \end{pmatrix}
$$
均質確率空間の場合の確認
確率がどちらも$${\dfrac{1}{2}}$$、即ち均質確率空間の場合は、$${p_1=p_2=\dfrac{1}{2}}$$なので、$${\mu=E[X]=\sum_{i=1}^n p_i x_i=p_1 x_1+p_2 x_2 =\dfrac{1}{2}(x_1 +x_2)}$$となり、正に単純平均。直角三角形が成立します。
「基本平均ベクトル」の導入
ここで、平均ベクトル$${\bm{\bar{x}}=\begin{pmatrix} 2 \\ 2 \end{pmatrix}}$$は、$${\bm{u}=\begin{pmatrix} 1 \\ 1 \end{pmatrix}}$$の平均値($${\mu=2}$$)倍となっています。
$$
\bm{\bar{x}}=\mu\bm{u}
$$
$${\bm{u}=\begin{pmatrix} 1 \\ 1 \end{pmatrix}}$$は、その平均値$${\mu}$$倍が平均ベクトルになるため、平均ベクトルの構成単位となるベクトルと考えられます。
しかし、単位ベクトルという名称は、長さ(ノルム)が1のベクトルという用語に予約されていて使えません。実際$${\bm{u}}$$は、2次元での長さ$${\sqrt{2}}$$、n次元では$${\sqrt{n}}$$となります。
用語の混乱を避けるため、今後本稿では、この1のみが成分のベクトル$${\bm{u}}$$のことを「基本平均ベクトル」と呼ぶことにします。
扱う次元(データ数)によって成分数や長さは変わりますが同じこと。その時々に応じて$${\bm{u}}$$は$${\bm{u}=\begin{pmatrix} 1 \\ 1 \end{pmatrix}}$$だったり$${\bm{u}=\begin{pmatrix} 1 \\ 1 \\ 1 \end{pmatrix}}$$だったり
$${\bm{u}=\begin{pmatrix} 1 \\ 1 \\ \cdot \\ \cdot \\ \cdot \\ 1 \end{pmatrix}}$$だったりします。
不均質確率空間でも分散早業公式は成立
さて、均質確率空間で成り立っていた分散早業公式「分散=2乗の平均-平均の2乗」は、不均質確率空間の場合、一体どうなるのでしょうか。
ここで、具体的な値を与えます。
$$
\bm{p}=\begin{pmatrix} p_1 \\ p_2 \end{pmatrix}=\begin{pmatrix}\dfrac{1}{3} \\\dfrac{2}{3} \end{pmatrix}
$$
1の出る確率が$${\dfrac{1}{3}}$$、3の出る確率が$${\dfrac{2}{3}}$$で、異なる加重を与えた訳です。
今回、「平均」は「期待値」という呼び名が適切かな、ということで、早業公式は「分散=2乗の期待値-期待値の2乗」になります。
計算します。
期待値は次のとおり。
$$
\mu=E[X]=\sum_{i=1}^n p_i X_i=\dfrac{1}{3} \cdot 1 + \dfrac{2}{3} \cdot 3 = \dfrac{7}{3} \\
$$
分散は、定義より$${\sigma^2 =\sum_{i=1}^n p_i (X_i - \mu)^2}$$。
変形すると、$${\sum_{i=1}^n p_i X_i^2 -2\mu \sum_{i=1}^n p_i X_i+ \mu^2}$$。
ここで、第2項の総和$${\sum_{i=1}^n p_i x_i= \mu}$$なので結局、
$$
\sigma^2 =\sum_{i=1}^n p_i x_i^2 - \mu^2
$$
つまり、確かに「分散=2乗の期待値-期待値の2乗」が成り立ちます。
本例では、$${\sigma^2 =\dfrac{1}{3}\cdot (1)^2 +\dfrac{2}{3}\cdot (3)^2- \left( \dfrac{7}{3} \right)^2 =\dfrac{8}{9}}$$です。
「三平方の定理の形になっていない問題」発生
しかし、ここで問題発生。
三平方の定理は、$${a^2=b^2+c^2}$$の形。各項が丸ごと2乗でないと成り立たないですが、$${p_i x_i^2}$$の部分は2乗の形になっていません。直角三角関係以前の問題。
しかしここで諦める訳にはいかない。
うーん、苦し紛れですが、辻褄合わせに確率$${p}$$を$${\sqrt{p}}$$とするしかなさそうですね。
しかしこれが、後々面白い考察をもたらすことになるとは、この時は筆者も気づいていませんでした…
「根確率」の導入
苦し紛れの$${\sqrt{p}}$$ですが、せっかくですし、これに名前と記号を与えましょう。
命名:「根確率」
記号:$${\r{p}}$$
定義:$${\r{p}=\sqrt{p}}$$
上の⚪︎記号は、北欧の言語でよく見るリング記号という発音区別符号で、確率の総和が$${p_1 + p_2 + \cdots + p_n =1}$$であるところ、根確率の二乗和$${\r{p_1}^2 + \r{p}_2^2 + \cdots + \r{p}_n^2 =1}$$となり、点$${(\r{p}_1, \r{p}_2, \cdots ,\r{p}_n) }$$が半径1の超球面(2次元での円、3次元での球)の上に必ず存在することに因みます。
これにより、三平方の定理が使える形になりました。
$$
\sigma^2 =\sum_{i=1}^n (\r{p}_i x_i)^2 - \mu^2
$$
「加重観測値」の導入
上式で新登場の$${\r{p}_i x_i}$$、そのままでは少し可哀想なので、この際、新しい名前と記号をつけましょう。
命名:「加重観測値」
記号:$${\r{x_i}}$$
定義:$${\r{x_i}=\r{p}_i X_i}$$
加重観測値は、不均質確率空間における観測値、言い換えると、確率の値が何らかの事情で変わり、均質→不均質確率空間に移行した時に、加重で縮んだ世界に合わせて観測値がズレたものと考えられます(根確率は1より小さいので、観測値すなわち元のデータは必ず縮みます)。具体的には、
$$
\bm{\r{x}}=\begin{pmatrix}\r{p_1}x_1 \\ \r{p_2}x_2 \end{pmatrix}=\begin{pmatrix}\dfrac{1}{\sqrt{3}}\cdot1 \\ \sqrt{\dfrac{2}{3}}\cdot3 \end{pmatrix}=\begin{pmatrix}\dfrac{1}{\sqrt{3}}\\ \sqrt{6} \end{pmatrix}
$$
なので、こう値がシフトします。
$$
\bm{{x}}=\begin{pmatrix}1\\ 3 \end{pmatrix} \rightarrow \bm{\r{x}}=\begin{pmatrix}\dfrac{1}{\sqrt{3}}\\ \sqrt{6} \end{pmatrix}
$$
根確率は観測値もろとも「(1,1)がズレたもの」と解釈
ここで、ふと根確率$${\bm{\r{p}}}$$に想いを馳せると、これは均質確率空間での基本平均ベクトル$${\bm{u}=\begin{pmatrix} 1 \\ 1 \end{pmatrix}}$$に自分自身の加重を与えたものであることに気づきます。
つまり、均質確率空間での観測値ベクトル$${\bm{x}}$$の成分それぞれに根確率$${\bm{\r{p}}}$$をかけることによって加重観測値ベクトル$${\bm{\r{x}}}$$へズラしたのと同様、均質確率空間での基本平均ベクトル$${\bm{u}=\begin{pmatrix} 1 \\ 1 \end{pmatrix}}$$の成分それぞれに根確率$${\bm{\r{p}}}$$ををかけることによって根確率$${\bm{\r{p}}}$$自身へズラしたものだと解釈できる訳です。
$$
\bm{{u}}=\begin{pmatrix}1\\1\end{pmatrix} \rightarrow \bm{\r{p}} =\begin{pmatrix}\dfrac{1}{\sqrt{3}}\\ \dfrac{2}{\sqrt{3}} \end{pmatrix}
$$
やはり直角三角関係は成り立つ
加重観測値と根確率を、均質・不均質確率空間に埋め込んだものを絵にすると、こんな感じです。
不均質確率空間での$${\bm{\bar{x}}}$$と$${\bm{\ddot{x}}}$$は、明らかに直交しています(内積を取れば一瞬で分かります)。
これで、$${\bm{\r{x}}}$$、$${\bm{\bar{x}}}$$、$${\bm{\ddot{x}}}$$の直角三角関係が示されました。
何が起こっているのか
基底ベクトルの変更
さて、ここで起こっていることは、一体何なのだろうか。
無理やり直角三角形を作るために、不均質確率空間、根確率、加重観測値のような、ここでしか通じないスーパーローカルな概念・用語を繰り出し、皆様にはご迷惑をおかけしております。
しかし、おぼろげながら、何かが見えてきた気がするので徒然に書いてみます。
まずは、下の図を見てください。
均質確率空間は、正に碁盤の目であり、平面を構成する単位は縦横1の正方形です。普通のいわゆる座標ですね。
これが、確率が異なる不均質確率空間に移行するというのは、このように、格子が障子のように縦長になったり横長になったりすることで視覚化されます。いわば、空間が歪むような感じでしょうか。
尚、長方形の対角線の長さは1でキープされます。
さて、この障子の長方形は、縦横のベクトルの組み合わせで表現されます。均質確率空間であれば$${u_1, u_2}$$の2つのベクトル、不均質空間であれば$${\r{p}_1,\r{p}_1}$$を基本部材として、原点と平面上の点を結ぶ平面ベクトルを実現していることになります。
$$
\bm{x}=1\bm{u}_1 + 3\bm{u_2}\\
\bm{\r{x}}=1\bm{\r{p}}_1 + 3\bm{\r{p_2}}
$$
つまり、ある意味、両者は全く同じ、但し用いる基本部材が違うだけ。
これら、平面を構成する基本部材のことを平面の基底ベクトルと言います。
$${\bm{x}}$$と$${\bm{u}}$$は、この基底ベクトルの変更(異なる比率での縮小)に伴う空間自体の歪みに従い、$${\r{\bm{x}}}$$と$${\r{\bm{p}}}$$へシフトして、不均質確率空間での直角三角形が見えてくるという仕掛けになっています。
根確率の長さが整う
根確率$${\r{\bm{p}}}$$は平面上で常に長さ(ノルム)1となります。これは、根確率の値が常に半径1の超球面上(2次元なら円周、3次元なら球面)に存在することが保証され、確率の総計が常に1であることと感覚的になんとなく整合する気がします。
平均ベクトルの長さが即ち平均値になる
観測値と偏差が直交することが保証されているということは即ち、均質確率空間では、「平均ベクトル」が「観測値ベクトルの基本平均ベクトルへの正射影」ということになります。
$$
\bm{\bar{x}}=\dfrac{\bm{x} \cdot \bm{u}}{|\bm{u}|^2}\bm{u}
$$
$${\bm{x} \cdot \bm{u}=x_1+x_2+ \cdots +x_n}$$、$${|\bm{u}|^2=n}$$なので、$${\bm{u}}$$の係数は、
$$
\dfrac{\bm{x} \cdot \bm{u}}{|\bm{u}|^2}=\dfrac{x_1+x_2+ \cdots +x_n}{n}=\mu
$$
であり、平均値そのものなので、結局、均質確率空間では平均ベクトルは基本平均ベクトルの平均値$${\mu}$$倍となります。
$$
\bm{\bar{x}}=\mu\bm{u}
$$
平均ベクトルの長さは、
$$
|\bm{\bar{x}}|=\mu|\bm{u}|=\mu \sqrt{n}
$$
となり、観測値の数(次元)$${n}$$によって変動することになります。
不均質確率空間でも同様のことが成り立ちます。「平均ベクトル」が「加重観測値ベクトルの根確率ベクトルへの正射影」ということになります。
$$
\bm{\bar{x}}=\dfrac{\bm{\r{x}} \cdot \bm{\r{p}}}{|\bm{\r{p}}|^2}\bm{\r{p}}
$$
根確率の長さは1なので、$${|\bm{\r{p}}|^2=1}$$。結局、平均ベクトルの長さが平均値そのものと一致することとなります。nで割る必要がなくなるということですね。
$$
|\bm{\bar{x}}|=\mu|\bm{\r{p}}|=\mu
$$
まとめ
確率が異なる場合、本稿での不均質確率空間での直角三角関係をこの目で見てみたい、その情熱だけでダラダラとこの記事を書くことになりました。
願いは叶いました。
その夢の実現のために、根確率や加重観測値など、スーパーローカル用語を導入し、代数の基底ベクトルの変換という考えを援用するなど、多くの犠牲を払うこととなりました。
しかし犠牲だけではなく、何となく得られたものもありました。
事象の実現確率が異なることは、やっていることは同じで、背景となる空間が歪む(偏る)だけ。
それが適切な解釈であるかどうかは筆者如きには分かりません。
この記事が気に入ったらサポートをしてみませんか?