見出し画像

偏差とか分散とか太陽系の旅とか

内容の正確性には万全を期していますが、初学者が自分の勉強のために書いた記事ですので、おそらく綻びがあります、ご了承ください。それでも公開したくなったのは挿絵に凝ってしまったからです。


各データのばらつき

イオ 偏差とか分散とか相関係数と か、どこかで習った気もするけれど、すっかり忘れてしまった。
レア よし、太陽系の旅に出発だ!
イオ 何を言っている?今、話をきいていたのか?
レア 地球型惑星のデータを使って、分散や標準偏差について考えてみよう。

出典:名古屋市立科学館「太陽系データノート2016」

イオ 初めからそう言えばいいよ。何が太陽系の旅だ。
レア それぞれの値が、どれくらい異端か分かる?異端具合を定量的に表せる?
イオ 定量的に…どれくらい平均から離れているかを調べる、とかだろうか。
レア ご名答!だから、異端具合を議論する前に、平均値を出さなきゃいけない。
イオ 平均値なら求め方を知っているよ、

平均値の算出

   公転周期の直径は341km、赤道直径の直径は9133kmになる。
レア 最高!じゃあ各値から平均値を引いて、異端具合を求めてみるよ!偏差って言うんだけどね。

イオ 平均値から各値を引くのではなく。
レア あくまで各値の話をしているんだから。一律に平均値を引かれても、やっぱりそれぞれの値が主役だからね、

偏差の算出

   これ見て、どう?
イオ 公転周期に関しては、地球は平凡だとか。赤道直径に関しては、ずいぶん水星が小さいとか?
レア だよねだよね!じゃあさ、データ全体の異端具合っていうか、ばらつきを数値化できる?
イオ 偏差の平均値とかどうかな、

偏差の平均は必ずゼロになる

   いや駄目だ、問答無用でゼロになるらしい。
レア でしょ、だから二乗してから平均するの。それを分散っていうんだ!

分散の算出

イオ 二乗によって次元が上がると、やたら数字も大きくなるし、実感しづらい。

レア じゃあ分散の平方根を取って次元を戻せばいい。標準偏差っていうよ。ちなみに偏差をベクトルとして捉えると、

偏差をベクトルと捉える

   標準偏差は偏差ベクトルの大きさに比例するんだよね。nが同じなら、偏りが激しいほどベクトルは大きくなるってわけ!
イオ 二次元や三次元のベクトルの大きさは、図形的に理解できるけれど、これは四次元ベクトル…?
レア イメージしづらいよねぇ。でも今は太陽系の旅だから、大気圏も飛び出して、四次元空間を浮遊していこう!
イオ 大気圏を飛び出したところで三次元空間は三次元空間ではないだろうか。

データ同士の関係

イオ 分散や標準偏差があれば、公転周期と赤道直径それぞれのデータについては語ることができそうだ。けれど、二者の関係はどうする。
レア ナイスクエスチョン!共分散の出番だね、

分散と共分散

   とりあえず式を見て。
イオ 偏差の二乗を平均する分散。偏差の積を平均する共分散。偏差の二乗は必ず0以上だけれど、偏差の積は負になることもある。
レア そ!だから共分散は負の数になることもあって、

共分散は相関を反映する

   こんな感じでxとyの関係性を反映するんだ。
イオ 考えたら一応、理解はできるけれど。

レア さっきの偏差ベクトルを持ちだしたら一撃で分かるよ、

共分散と内積

   標準偏差はそのベクトルの内積に比例するんだよね。
イオ なるほど。惑星のデータで計算してみると、

分散の算出

   正の相関、といえるのだろうか。
レア まぁ少なくとも負の相関ではなさそうだけど、まだ分かんないんだな~。どれくらい相関が強いか分かる?
イオ どれくらい…2148は大きくも見えるけれど、もとの公転周期や赤道直径が大きいことを考えると、どうだろうか…。

レア 判断しづらいよねぇ、そういうときは「共分散」を「公転周期の偏差」と「赤道直径の偏差」で割れば解決だよ。相関係数っていうんだけど、

相関係数

   必ず-1以上1以下の値になる。
イオ 必ず?
レア うん、だって

相関係数とコサイン

   相関係数はコサインなんだから。
イオ 四次元ベクトルと四次元ベクトルの成す角と言われても掴みづらいけれど、まぁ公式から考えると確かにそうだ。
レア でしょ!惑星のデータの相関係数は、

相関係数を実際に求めてみる

   0.003で、まぁ相関があるとはいえないなって分かったところで太陽系の旅は終わりで~す!
イオ 唐突な終わり方だな。