見出し画像

平均の話1

後編はこちらです

平均とは、データの特徴を表す代表値の1つです。買い物、スポーツ、身体測定、どの場面でも目にする日常に深く浸透した概念です。本記事では平均について掘り下げていきます。厳密さや正確さよりも、大掴みに理解できることを重視した解説です。


1.相加平均(算術平均)

一番有名な平均です。合計÷個数で計算されます。相加平均では足し算で変化するものに適しています。しかし掛け算で変化していく成長率や対前年比には適していません。そのような場合は次の相乗平均を使用します。



2.相乗平均(幾何平均)

次に有名な平均です。変化率の平均を求めるときに適しています。
データをかけた後、データ数の累乗根を取ることで計算されます。

売上を例に考えてみます。今年の売上は半減し(0.5倍)、逆に来年は倍増(2倍)したとします。なんとなくですが、来年の売上は元に戻った感覚があります。実際に計算すると√(0.5×2)=1という結果が得られます。一方、通常の相加平均では(0.5+2)/2=1.25となってしまいます。



このように平均値を計算する際は、そのデータの種類によって計算方法に配慮することが必要です。そもそも変化率とは割り算で求めるものです。そのため変化率の平均も、割り算を通して求めるべきです。そう考えると筋が通っているかと思います。余談ですが、相乗平均の特徴として、0のデータが1つあるだけで結果が0となってしまいます。



3.調和平均

調和平均では、物事の進み具合の平均に適しています。式は次の通りです。
データを逆数にした状態で相加平均を求め、その結果をさらに逆数にします。

例として平均速度で考えてみます。行きは時速20km、帰りは時速40kmの場合の平均速度です。感覚的には平均時速30kmですが、実際は調和平均で計算すると約26.7kmとなります。


しっくりこないときは極論で考えてみます。時速0.0000000001kmと時速100kmで再度考えてみます。相加平均で計算すると、およそ時速50km程でしょうか。しかし、時速0.0000000001kmを真面目に想像してください。遅すぎて日が暮れます。つまり相加平均で求めたときの平均速度時速50kmは早すぎます。相加平均では時速0.0000000001kmの影響を強く受けすぎているということです。


以上の例からも分かる通り、この調和平均では、大きな外れ値の影響を和らげる特徴があります。調和というだけあるかと思います。とはいえ、日常生活では滅多に関わらない平均です。


まとめると平均の計算では、データの「影響力」にも着目する必要があります。外れ値の影響はなるべく減らし、逆に重要なデータは強く残したいものです。そのような狙いを反映した平均が次の加重平均です。



4.加重平均

加重平均は、特定のデータに対し「重みづけ」を行います。重みwが全て同じであれば、ただの平均(算術平均)となります。

統計分析や機械学習(AI)で利用されます。例えばAIに、特定の選択肢を優先して選ばせたいときなどです。ただし重みづけでは、重みの決め方が重要です。その決め方に至った根拠に妥当性がないと、加重平均を用いた分析も意味がありません。


もう少し身近な例で解説します。学校のテストを想像してください。クラスAでは平均90点、クラスBでは平均50点とします。ただし、クラスAの人数は5人、クラスBの人数は100人です。

クラスAは優秀なのでしょう。しかし人数は少ないため、学年全体で平均を取ると、低くなります。実際に加重平均を計算すると約52点となり赤点となります。

お気づきでしょうか。
つまり、この例では「人数」がデータの影響度=重みを表しています。繰り返しますが、平均では「データの影響力」という視点も重要です。



あとがき

加重平均は重心の計算にも利用されます。重心とは、質量の中心位置を指します。

例えば、人の重心は体の中心上にあります。ヘソの下あたりです。これは人体がおおむね対称的であるため各部位の重量、つまり重みが相殺されているからです。重心の考え方も結局のところ、各部位の重量を「重み」「影響度」とした加重平均だったわけです。


後編はこちらです

この記事が気に入ったらサポートをしてみませんか?