平均、期待値、分散、標準偏差

2021年3月21日 11:06

前回の記事では、確率をいくつかの立場から整理して統計学における展望を述べました。ここでは、観測データや確率分布に対して重要な統計量をいくつか記述します。

統計学で扱うデータは、数が多く、すべてのデータを把握することが難しい、あるいは意味が無いケースが多くあります。このようなケースでは分布の特徴を示すようなパラメータを知ることが重要になります。

例えば、得られたデータの平均値を知ることは非常に重要です。おそらくデータを最も代表するような値になるからです。観測データの場合、頻度主義的確率から各データの出現確率piと観測値f(xi)に対して、Σpi*f(xi)が求める平均値になります。離散的な確率分布の場合も同様に考えます。すなわち、Σp(X = x) * f(X = x)です。これは期待値と言われる量と一致します。また、連続的な確率分布の場合は∫p(X=x) * f(X = x) dx となります。これらの量は、観測値f(xi)を確率変数Xとして、E(X)というラベルの関数として記述されます（Eは、Expectの頭文字）。

さて、得られたデータの平均値が分かりましたが、そこからデータがどの程度ばらついて存在するのか、という情報も非常に重要です。データのバラツキは、「分布の平均値から各観測値の距離の和」がどの程度のものか、でうかがい知ることが出来ます。従って、Σ（μ - f(xi))^2という指標を採用することが出来るでしょう。μは分布の平均となります（ここで、Σ（μ - f(xi)）= Σμ - Σf(xi) = nμ - nμ = 0になることに注意します）。この値をデータの個数nで割った値を分散と言い、V(X)というラベルの関数として記述されます（VはVariantの頭文字）。また、V(X) = E(X^2) - (E(X))^2という式で得ることが出来ます。

さて、バラツキの指標は得ることが出来ましたが、この値は次元が元のデータに対して二乗となるため、データおよび平均（期待値）に対して別の尺度が適用されてしまい、直観的に比較できないものになります。従って、分散の次元を基のデータないし平均と同じものにすべく、分散の平方根を取ることで、次元をそろえて比較可能な値にします。この値を標準偏差と言います。

この記事が気に入ったらサポートをしてみませんか？