見出し画像

平均値、最頻値、中央値の使い分け  その②

前回、前回の投稿以降、3つある代表値、
「平均値、最頻値、中央値」
についての説明をしております。

前回の「その①」では、

・データの分布・偏りに着目
・データを用いて説明したい内容と目的を考える

に着目することが重要であることを説明し、

・盲目的に平均値を代表値として使うことの危険性

についても取り上げました。


持ち越しになった、「最頻値」と「中央値」の使い分けについてを解説したいと思います。

正直、どのような例を用いて説明するのが良いか悩みました。。。


例えば以下のようなデータがあったとします。

1時間ごと、1日ごと、1か月ごとなどの、
株価、為替、気温、湿度、降雨量など

なんでも良いので、とにかく時間ごとの変化を記録したデータがあったとします。

図1

感覚的にグラフがガタガタしているという印象を持つと思います。

データは相対的に短期間のデータを表示すると、このようにガタつきのあるデータになることが多くあります。

「相対的に短期間」とは、例えば一か月ごとの気温を知りたいときに、1時間ごとにデータを表示したり、1年ごとの体重の変化を知りたいのに、毎日の体重データを表示したり、といったことです。

このような場合、以下のように「代表値」を使うことで、「ガタつき」を除去して、グラフをなめらかにすることができます。

図2

青いグラフが元のデータです。
青いグラフの①、②、③区間それぞれで5点ずつ平均値をとり、その平均値を赤いグラフの①、②、③に対応させていき、それをくりかえしています。

5点ごとの代表値にでグラフを作り直したことによって、ガタつきがなくなりました。
この手法を「移動平均」と言います。

短期間で見ると上昇、下降を繰り返していても、全体的には大きな変化がないなど、長期的、全体的視点でデータを評価しやすくなります。


次に、図1のグフラに、以下のように異常な値が「ピョコン」と出てしまったとします。

図3

例えば、

  • 気温や湿度など天候に関するグラフであれば、ある月、ある日に異常気象が生じた。

  • 電子体重計や、キッチンスケールであれば、「ドン!」と衝撃を与えてしまった。

  • 数字を間違ってデータを記録してしまった。

などなど、データをとっていると、色々な理由でこのようなことが起きることは多々あります。

ガタつきをなくそうと、図2と同じように「移動平均」を使った例がこちらです。

図4

「ピョコン」と出た異常値が大きすぎるため、平均で代表値を出してしまうと、5点分、赤いグラフが異常値の影響を受け続けてしまっていることがわかると思います。

気温とか、為替とかの傾向をデータから見たいのに、まったく関係のない異常値が加わってしまうと、正しい比較ができなくなります。

このようなとき、「中央値」の出番です。

図6

図2のように5点を1セットとして、その5点ごとの中央値で作ったのが黄色のグラフになります。
異常値は、ものすごく高かったり、低かったりすることが多く、中間(中央)の値にはならないので、中央値を使うことでこのように省いてしまうことができるのです。

前回投稿の「平均値、最頻値、中央値の使い分け その①」では、中央値と最頻値は、ほぼ同じような結果になりましたが、今回のような場合、最頻値を使うことはできません。

前回の投稿で使った年収グラフを見てください。

図7

~100万円の階級から、300~400万円の階級に向かって「連続的に」度数が上がっていき、それを超える年収にむかうに従い、やはり「連続的に」度数が下がっていることがわかります。

一方で、今回の例のようにグラフがガタガタしているということは、データに連続性が無いということになりますよね。
つまり、5点を1セットとしてグループ分けしましたが、同じデータは一回ずつしか出ていないため、頻度がみんな同じなので「最頻」値を決めようがないのです。
(ちなみに、このような連続性のないデータを「離散的」と言います)

もちろん何百点、何千点でグループを作れば、頻度に違いが出てくるかもしれませんが、例えば、一か月ごとの代表値を決めたいのに、何百、何千点分の長い期間のデータを集めて作ったグループで代表値を決めるわけにはいきませんよね。

また、離散的と思われるデータ使って、何百点、何千点のグループのデータを使って頻度に差が出たとしても、無関係な理由による差になっている可能性があります。

これはどのようなことかというと、例えばサイコロの「1」が出る確率が1/6であることを示すために、ひたすらにサイコロを振ってデータをとって証明するとします。

何十回、何百回と振っていくことで、きれいに1/6の確率で「1」になるというデータが取れるはずです。

しかし、さらに何万回、何百万回と続けていくと、おそらくある特定のサイコロの面が出やすい、というデータになっていくと予想します。

これは、サイコロの重心が微妙に違うとか、角の形状が微妙に違うとか、本当に小さな小さな違いの差が、回数を重ねることで出てくるはずです。
当然、この差が出てくれば、最頻値によって、どの面が一番多く出たかの分析ができます。

しかし本来は、一般的な話として6面体の中のある1面が出る確率が1/6であることを確認するのが目的です。
サイコロの重心とか、角の形状の違いによる差といった、実験に使ったサイコロ固有の理由による頻度の差は、本来の目的と無関係であることに注意が必要ということです。


3つの代表値「平均値、最頻値、中央値」

前回の平均所得のように、平均値を使う場合は注意が必要
とか、
今回の最頻値のように、このような場合は使用できない

制限や制約がある場合はありますが、こういう場合はこれ、と選び方に決まりがあるわけではありません。

・データの分布・偏りに着目
・データを用いて説明したい内容と目的を考える

これを念頭に置き、選んだ代表値によって何が説明できるのか、常にこのことを考えてみるようにしてください。


いかがでしょうか。
最頻値と中央値の使い分け。
わかりやすい具体例をあげようと思って色々考えましたが、結構むずかしかったです。

何か良い例が思い浮かんだときにまた。。。

この記事が気に入ったらサポートをしてみませんか?