見出し画像

【統計】データの種類

皆様おはようございます!
最近noteの記事の構成を悩んでおりましたが、大きく3つのシリーズで投稿していこうと考えました。
①「概念シリーズ」
②「統計シリーズ」
③「自分の思いや考えシリーズ」
これまでの記事でいうと、ジョブ・クラフティングの内容は「概念シリーズ」になり、その他は「自分の思いや考えシリーズ」になります。
この構成で週2程度のペースで更新を続けていこうと思います!


本日は、統計シリーズ。
統計基礎知識についてお話させていただこうかと思います。

統計を学ぶ理由

統計ってみなさんお聞きして、どのような印象を抱くでしょうか??
・難しそう。。
・数式とか見たくもない。
・日常生活に必要ないから勉強する必要がない。
などなど

大多数の人がネガティブな印象を抱くのではないでしょうか??
私自身も大学院に入学して最初論文を読み始めた時、量的研究を読むのが本当に苦痛でした。
量的研究を読むためには、統計の知識が最低限ないと理解することができません。

また、統計というのは実はあらゆる場面で役立ちます。
例えば、最近日中が眠くて仕事や勉強が集中できないと感じていたとします。
そこで、日々の睡眠時間をメモしてみました。
1日目:8h
2日目:6h
3日目:7.5h
4日目:7h
など、、
このようにして睡眠時間と日々の眠気を5段階で数値化して記録することで、何時間睡眠であれば日中眠くならないかの傾向を把握することができます。

統計というのは、日常生活のあらゆる場面で応用できる上に、あらゆる場面で既に使われています。
・天気予報の天候や気温、降水確率
・株価の変動
・選挙に関する世論調査
・政党の支持率
・野球の打率など

現代、IT化が進み情報が溢れる現代において、統計の知識を持つことで生きていく上での充実度が上がるといっても過言ではないでしょう。

そこで今回は、データの種類についてお話させていただきます。

質的変数と量的変数

まず、データの種類には質的変数と量的変数の2種類のデータがあります。
変数というのは、データの項目(種類)のことです。

質的変数

質的変数はさらに2つに分けられます。
・名義尺度
・順序尺度

名義尺度とは、カテゴリ間に順序関係がないものを指します。
例えば、性別(男性、女性)や科目(数学、国語、社会、理科、英語)、学歴(大学、高校、専門学校、大学院)などのことを指します。
男性より女性の方が強い、などの順序関係はありませんよね?(私の家庭においてはあるかもしれませんが、、)

順序尺度とは、カテゴリ間に順序関係があるものを指します。
例えば、学校の成績(5段階)や患者の満足度(5段階)などのことを指します。
アンケートを答えていると、
1,そう思わない
2,あまりそう思わない
3,どちらでもない
4,少しそう思う
5,そう思う

このような尺度を見たことがないでしょうか?これは、1~5の間に順序関係があるため、順序尺度といいます。
ただし、このような5段階尺度はリッカート尺度というのですが、場合によっては次に示す間隔尺度として扱われることもあります。


量的変数

量的変数も2つに分けられます。
・間隔尺度
・比例尺度

間隔尺度とは、各値の間隔に意味があるものを指します。
ちょっとわかりづらいかと思いますが、例えば、
西暦や偏差値などを指します。
2023年、2024年など、連続した数値で表されるものであり、数値間が等間隔のものであるため間隔尺度と言われます。
2022年と2023年、2023年と2024年、これらの間隔は等間隔ですよね??
2024年と2025年の間だけ、20か月あります。なんてことはないですよね??
数値間が等間隔というイメージで覚えていただけたら大丈夫です。

比例尺度とは、連続した数値の内、上記の間隔尺度と同様に数値間が等間隔であることに加え、数値の倍数を論ずるのに意味があるもの、そして、0に意味があるものと一般的に言われております。
例えば、身長や体重などがあたります。
身長は、Aさん:100㎝とBさん:200㎝であれば、Bさんの身長はAさんの身長の2倍である。といえます。
そして、0㎝というのは、身長がないということであり、0に意味があります。(身長0cmというのがあり得ないのでイメージしづらいかもしれませんが、、)

一方先ほどの、西暦200年は西暦100年の2倍であるとはいいません。
偏差値に関しても、偏差値80の人は、偏差値40の人より2倍頭が良いとはいいません。頭がよいのは確かかもしれませんが、何倍という言い方では表せないためです。

0が恣意的に決められたものかどうか

そして、間隔尺度と比例尺度を考える上でもう一つ基準となるのが、
0が恣意的に決められたものかどうかという点です。
例えば、摂氏温度は間隔尺度と比例尺度のどちらかわかりますか?

正解は、間隔尺度です。
一見摂氏0℃というのは、意味がありそうですよね?
5℃と10℃では、10℃は5℃の2倍であるといえそうですよね?
しかし、ここでいう0℃というのは、人間が恣意的に決めたものになります。
水が氷になる時の温度を0℃、水が沸騰する時の温度を100℃と、恣意的に決めたものであるため、比例尺度には該当しません。
一方、重量の0㎏は何もないということであり、人間が恣意的に決めたものではないので、比例尺度になります。
このように、0が恣意的に決められたものかどうかが一つの判断基準となります。

離散変数と連続変数

量的変数には、上記の分類とは別に離散変数連続変数に分類することもできます。
離散変数とは、取り得る値が数えられる値であり、整数値を示します。
例えば、サイコロの目は、1~6の数値のみで整数値で表されることから、離散変数となります。

連続変数とは、取り得る値が無限に存在するものを指します。
例えば、身長や体重は、0~無限の数字をとる可能性がありますよね。(現実的には、200㎏を超える人はいないかもしれませんが、、)

まとめ

以上のことをまとめると、下記のような表になります。

本日は以上になります。
ここまでお読みいただきありがとうございました。

もしもわかりやすい、勉強になったと感じていただけたら、「スキ」または「フォロー」をしていただけると幸いです。
最後までご覧いただきありがとうございました。

この記事が気に入ったらサポートをしてみませんか?