見出し画像

統計とデータ可視化の初歩をゼロから学習する #1

横浜市が公開しているデータ等を使って、統計的な考え方をゼロから学びつつ、基礎的な統計量を実際に手を動かしながらデータを読み解く手法を理解し、より効果的にデータを解釈できるように目指します。今回は、色々なグラフの種類とその特徴について学んでいきます。

なぜ統計的な考え方が必要なのか?

私たちの生活の中に、実は沢山の統計データがあふれています。テレビや新聞、WebやSNSなど、本当にさまざまな形でデータを目にしています。広告などで売上やシェア率の大きさを扱っているものや、食品や薬の効果を数値で表して効果をイメージさせるもの、天気や気候に関すること、スポーツに関するデータや街で開催されるイベントの入場者数など、数え上げればキリがないほどのたくさんの数字があふれています。

ところで、統計は数値で表されていることもあり、説得力があるように思えるので、多くの人が数値だけで判断してしまいやすい傾向があります。
ですので、物事の賛否などの意見を表したデータや、行動などの判断に関することなど、正しく統計を理解する知識がないと、場合によっては間違った統計や恣意的なデータによって判断を誤ってしまう危険があります。

統計データを鵜呑みにせず、情報の真偽をキチンと自分で判断できることは、データにあふれた現代社会で生活する上で、より大切なスキルになっていきます。

データを集計する

データといっても、人口のように数量で示される量的データや、症状の程度を表すような質的データもあります。データを集計するときには「集計表」というものを使います。それぞれのカテゴリの数を度数と呼び、下図のように単位を書かず値だけを入力します。

画像4

データの大小を単純に比較するときは、行を値の大小の順に並べ替えることで見やすくなる場合もあります。

画像2

さらに、視覚的に分かりやすいように棒グラフにしてみます。

画像4


例えば、港北区の人口が西区の約3.5倍であることが、一目で分かるようになりました。

さまざまなグラフの種類

グラフにはさまざまな種類があり、表したい目的に応じて使い分けることが大切です。上でも用いた棒グラフは、データの大小などの比較に便利です。

円グラフ

それぞれのデータの全体に対する割合を表したいときに使います。下図のように、新型コロナウイルス陽性確定時の軽症者の割合が、約8割を占めていることなどが一目で分かります。この場合は、症状の程度の順番で表していますが、場合によっては、要素の割合が大きい順に表した方が分かりやすいときもあります。

DB_陽性確定時の症状の割合

出典 :横浜市HP「横浜市内の陽性患者の発生状況データ・相談件数」から

折れ線グラフ

時間的な推移を表すときに有効です。角度の緩急が分かりやすいメリットがある反面、軸の使い方によっては傾向を謝って理解してしまいかねないので、メモリ幅を歪めずに正しく作図することが大切です。

画像7

例えば、次のグラフのように縦軸の値を設定してしまうと、値の推移の印象が誤って伝わりかねません。このグラフの場合は、データの最小値に合わせて原点の値が290万人に設定しているので、軸の値の取り方はあまり好ましくありません。

画像8

積み上げ棒グラフ

全体の値の比較をしながら、それぞれの個々の要素の値も表すことが出来ます。

画像6

度数分布表・ヒストグラム

連続データのような量的データの集計には「度数分布表」というものがよく使われます。度数を集計するための区間を「階級」と呼び、区切りは等間隔にしたほうがデータの特徴を正確に理解できます。度数分布表から「ヒストグラム」を描くことが出来、データがどのように分布しているのかの傾向を見やすくなります。メリットは、分布の中心や散らばり具合などが読み取れることです。ポイントとしては、連続量であるということは項目に順序があることなので、並べ替えることが出来ません。また、階級の幅の設定の際にも注意が必要で、場合によって分布の印象が違って見えることがあります。

※下図の場合は積み上げ棒グラフとミックスされている例です。

DB_陽性確定時の症状別人数(年代別)

出典 :横浜市HP「横浜市内の陽性患者の発生状況データ・相談件数」から

今回は、最も基本的なグラフの種類と特徴を、実際に横浜市のデータを扱いながらまずは用途に応じたグラフの使い分けを整理しました。次回は平均などの代表値について学んでいきます。

参考書籍:
文系のための統計学の教室(SB Creative)

参考元URL:
統計学の時間|統計WEB

データ出典元URL:
男女別人口及び世帯数-行政区データ(横浜市政策局 総務部 統計情報課 令和3年6月1日現在)
横浜市内の陽性患者の発生状況データ・相談件数
人口と世帯数の推移(横浜市政策局 総務部 統計情報課)
※本文中にて作成した表・グラフは上の参照元データから作成したもの

この記事が気に入ったらサポートをしてみませんか?