見出し画像

平均値の計算、間違っていませんか?

突然ですが、
みなさんは平均値をどのように扱っていますか?
ええ、単純に足し算して割り算して出すアレです。

この仕事をしていると、
「●~▲までの平均値を出してください。」
という指示を頂くことがあります。
「甘さ」とか「苦み」とかの評価点の平均値とは別に、「味全体」としての評価点の平均値が見てみたい・・・などですね。

で、親切な方はその計算方法までご指示を下さるのですが、その指示が間違っていることが多いんです。

どのように間違っているのかというと、

「甘さ」や「苦み」などの平均値から、「味全体」の平均値を出して

・・・というものです。


そこで私はどうするのかというと、

・計算方法が間違っていること
・正しい出し方
・(場合によっては)エンド様からツッコまれたらヤバいですよ

ということを伝え、その上で算出方法をお客様に選んでいただきます。

じゃあ、実際にどんな感じになるのか、具体例を挙げてみます。

画像1

上の表は、1 ~ 100 の平均値をいくつかの方法で算出した結果で、それぞれ

【一番上】
そのまま 1 ~ 100 の平均値を出したもの。

【真ん中】
1 ~ 50 と 51 ~ 100 の平均値を出してから、その平均値の平均値を出したもの。

【一番下】
1 ~ 10 と 11 ~ 100 の平均値を出してから、その平均値の平均値を出したもの。

となっています。

当然、
素直に 1 ~ 100 の平均値を出している一番上の平均値(黄)が正しいので、この値をもとに他の方法の結果を比較してみます。

すると、真ん中の方法で出した平均値(緑)は同じ値ですが、一番下の方法で出した平均値(ピンク)は違う値になっています。

なんとなくこうなることは知っていたのですが、調べてみると、これはデータの個数が同じか否かによって起こることみたいです。

真ん中の方法の場合、
「1 ~ 50」も「51 ~ 100」もデータの数は 50 個で同じです。

一方、一番下の方法の場合、
「1 ~ 10」のデータの数は 10 個なのに対し、
「11 ~ 100」のデータの数は 90 個なので、
データの数が異なっています。

なぜデータの数が異なると、
複数の平均値から新たに平均値を算出するときに誤った値が出てくるのか
・・・という話は省略します。

必要なのは
「平均値から平均値を算出すると誤った値が出ることがある」
という事実
であって、その仕組みではないので。

事実、私は詳しい仕組みは覚えていなくても、
「平均値から平均値を算出すると『偶然正しい値が出ることもある』」
くらいの認識だけでやってこれました。

ですので、自信がない人は
「平均値は必ず基データ(ローデータなど)から算出する」
という認識で問題ないと思います。


ちなみに、
ウェイトバック集計をする際のウェイト値の設定でもよく見かける誤りがあるのですが、それはまた別のお話・・・ということで。

この記事が気に入ったらサポートをしてみませんか?