見出し画像

移動平均を使ってデータの傾向を見やすくする - データ可視化ミニ講座(8)

ランダムな変動や周期的な傾向があるデータの場合、実数だけでなく移動平均を同時に可視化することによってデータの中長期的な傾向を見やすくすることができます。

移動平均とは、時系列データにおいて一定期間におけるデータを平均し、時点が動くごとに古い時点を外して新しい時点を含めて、……という計算を繰り返し、数値の変動を平滑化するものです(厳密に言うと時系列でなくとも使われる場合があります)。

言葉だとわかりにくいので具体例を出します。たとえば、新型コロナの感染者数(検査陽性者数)は「その日に報告された数」がベースになっているため、医療機関や保健所などが休む土日やその翌日は感染者数が少なくなりがちです。逆に休日に発生した患者の分は多くが翌営業日に回るため火曜日や水曜日が多くなる傾向にあります。つまり、グラフ上だと日曜・月曜が凹んで火曜・水曜が膨らみがちになるということです。こうした週ごとの傾向を均すために直近7日間の平均値がしばしば使われました。

データにランダムな変動が含まれる場合や、一定期間における周期的な変動が含まれる場合、中長期的な傾向を見るのに移動平均は役立ちます。

ただ、どの程度の周期で移動平均を入れるべきか、そもそも移動平均を表示するかどうかはデータの性質や特に強調したい周期によって異なります。新型コロナの場合、数ヶ月単位での「波」の方が週ごとの変動よりも多くの人にとって重要でしょう。その判断があって移動平均が追加されたと思われます。このあたりは機械的な判断ではなく、データの集計基準や注目ポイントを人間が判断するケースが多いかもしれません。

デザイン面では、移動平均の方を特に見てほしい場合、実数は薄く、移動平均は太く目立つラインで表示するのが一般的です。逆に、移動平均を参考程度に表示するだけなら薄く細い線で表現する場合もあります。株価チャートなどではこのケースが多いようです。

この記事が気に入ったらサポートをしてみませんか?