G検定 / 統計検定 データの視覚表現 #6

株式会社リュディアです。引き続きデータの視覚表現、いわゆるインフォグラフィックについてまとめていきます。

過去の G検定 / 統計検定 データの視覚表現についてのまとめは以下を参照してください。

今回は時系列データ時系列グラフ移動平均についてまとめてみます。まず時系列グラフとは横軸に時間軸を設定するようなグラフです。例えば以下のようなデータです。

- 横軸が日付、縦軸が最高気温
- 横軸がある日の時間、縦軸が記憶
- 横軸が日付、縦軸が観察している植物の背丈
- 横軸が年齢、縦軸が身長
- 横軸が日付、縦軸がCOVID-19 新規陽性者

雰囲気はわかりましたか?では大阪の COVID-19 関連のオープンデータを使ってグラフや移動平均について見ていきましょう。大阪府は以下に COVID-19 の詳細情報を公開しています。

このページのオープンデータへのリンクと書かれている場所から何とエクセルファイルをダウンロードできます。役所としては頑張っていると感動しました。エクセルがダウンロードできるだけなんですが...

エクセルファイルを開くと以下のようなデータが入っています。これが今日の日付まですべて埋まっているわけです。まさに1日単位の時系列データですね。

画像1

では早速見ていきましょう。時系列グラフといっても一方の軸が時系列になっているだけで通常のグラフです。今回は検査件数と陽性人数を2つの縦軸を使ったグラフをエクセルで作ってみました。以下のようになります。

画像2

何となく似た傾向があるというか、陽性人数が増えてきたから検査件数を増やした、ということなんでしょうね。特に最近では COVID-19 の報道の影響で新聞でもよく見かけるグラフになりましたよね。このグラフは縦軸に検査件数または陽性人数が出ているので人数が基準になっています。

時系列データでは人数のような絶対的な値を表示することもあるのですが、差分を表示することで意味がクリアになることも多いです。では検査人数について検査人数と検査人数の前日との差をグラフにしたものを以下に示します。

画像3

正直なところ差分をることで新しい情報が見えてきたという感じはありません。ただ差分についてはプラス側よりマイナス側の方が数字が小さいということから検査人数は増やすときは急激に増やすが減らす時は少しずつ減らしていることがわかります。

他に変化 = 差分ではなく変化の割合である変化率を調べることも多いです。以下検査数の変化率を調べたグラフを添付します。

画像4

オレンジ色が変化率なのですが最近に近づくと変化率のふれ幅が小さくなってきていることがわかりますね。これは1日単位で検査数が大きく増減していないことを示します。

最後に移動平均についてです。COVID-19 の検査件数や陽性者件数がニュースで報じられると月曜日の陽性者数は少ない、なぜなら土曜、日曜の検査件数が少ないから、といった話が報じられるようになりました。そのため前週の同じ曜日と比較するといった工夫もなされていましたが一週間単位の比較となり連続的なデータでなくなります。そこで直近一週間の平均値とその日の陽性者数として一週間単位のデータを取得すれば土曜、日曜の影響が緩和されそうですね。このようなデータの取得の仕方を移動平均、この場合は7日間移動平均7日移動平均と呼びます。実際に具体的な検査件数に対して3日、7日、14日の移動平均を追加したグラフを見てみましょう。

画像5

青の棒グラフは具体的な検査件数なので激しく上限していますが、3日移動平均、7日移動平均、14日移動平均となるについれて平均値をとっているので滑らかな曲線になっていく様子がわかると思います。これが移動平均の効果です。ただし長期での平均をとると短期の傾向が見えなくなるという欠点があるので平均期間をうまく定めて運用する必要があります。

G検定 / 統計検定 データの視覚表現に関するまとめの続きは以下からどうぞ。

では、ごきげんよう。

この記事が気に入ったらサポートをしてみませんか?