勉強コラム 統計学編 1. 1変量のデータと度数分布
※このノートは私が分かりやすい表現で記載してます。厳密な定義は教科書を参照してください。
勉強コラム統計学編の第1弾は1変量のデータ処理についてです。確率については省略します。変量とはざっくりいうと変数と同じ意味で、データの種類みたいなものだと思っています。今回はその変量が1種類のデータと度数分布について勉強しようと思います。
1.度数分布表
例題をもとに度数分布表や、それに関連する語句の勉強をしようと思います。
まず、あるクラスのあるテストの点数(10点満点)が以下のような場合を考える。(乱数で適当に決めました。)
このような特定の項目に対する数値の集まりをデータといい、1つのテストに着目しているデータなので、1変量のデータという。データに含まれる数値の個数(この場合A~Jまでの10人の生徒)をデータの大きさという。
度数分布表を作成する。度数分布表とは、変量に区間を設定し、その区間に含まれるデータの個数(データの大きさ)でまとめなおしたものである。表1のデータを度数分布表にまとめなおすと、表2のようになる。
今回は区間を2点づつで区切った。それぞれの区間に含まれるデータの個数を度数といい、設定される区間を階級、区間の幅を階級幅、階級の中央値を階級値という。例えば、2~4点の区間についてみると、階級値は3、度数は3ということになる。(ExcelではCOUNTIFS関数を使えば度数を算出できる。)
2.相対度数分布表
相対度数分布表とは、データ全体の大きさ(データの総個数)を1とした場合の度数分布表である。この処理をすることによって、どの階級に何%ぐらいデータがあるかどうか判断することができる。表2をもとに相対度数分布表を作成すると表3のようになる。
各階級の度数を全階級の度数の合計(データの総個数)で割った値を、相対度数という。階級値3の階級の相対度数は、3(その階級の度数) / 10(全階級の度数の合計)=0.3となり、2,3点を獲得した生徒は全体の30%であるということがわかる。
3.ヒストグラム
ヒストグラムとは度数分布または相対度数分布を棒グラフで表したものである。度数分布表記のヒストグラムを図1にに示す。
縦軸を相対度数で表せば、各階級のデータの大きさの割合を視覚的に表せる。縦軸を相対度数にすれば各階級ごとのデータの大きさの割合が視覚的に表せる。また、ヒストグラムに各階級の度数の積算値の折れ線グラフを併記すれば、中央値などの大まかな値が視覚的に表せる。
なお、今回はデータ区切りを等間隔にしたが、この区切りを自分が解析したい情報に応じてチューニングすることにより、データから様々な情報を抽出することができる。
4.まとめ
今回は1変量のデータに関して度数分布表とヒストグラムを勉強しました。要約した内容を以下に示す。
①データ:ある項目に対する数値の集まり
データの大きさ:データの個数
②階級:データをある数値範囲で分類した場合の各数値範囲のこと
階級値:数値範囲の中央値
階級幅:階級の数値範囲(幅)
度数:階級に含まれるデータの大きさ(データの個数)
相対度数:各階級の度数をデータ全体の大きさ(データの総個数)で割った値。全体の何%のデータがその階級に含まれているか表せる。
③ヒストグラム:各階級の度数をグラフで表記したもの(度数分布)。度数の分布を視覚的に表現できる。
ご精読ありがとうございました。
仕事でも今回のような何かのスコアに関するデータはありますが、時系列順でリアルタイムにどう変化しているかを表しているデータも多く取り扱います。時系列のデータをヒストグラムで表記すると、どこらへんのデータが多くて、最終的な結果に大きな影響があるのか解析するときに役立っています。
もしよろしければ、スキ、コメント、フォローよろしくお願いします。次回は1変量のデータの解析について勉強しようと思います。
この記事が気に入ったらサポートをしてみませんか?