見出し画像

社会調査の基礎 NO.8 データの集計と分析



今回の内容は、YouTubeで視聴できます。


ここは、ほぼ毎年出題されています。

量的調査では、データを集計しても、そのままでは単なるデータの羅列であり、意味を持ちません。なので、データを集計した後、分析や検定を行うことによって調査結果を得ることができ、現実の施策に生かすことができます。
そこで、収集したデータをどのように集計し、分析するか、検定するか、という部分を理解する必要があります。
今回は、データの集計と分析の仕方を中心に見ていきます。


1.単純集計の仕方


まず、単純集計の仕方について触れていきます。

量的調査をして、データを集めました。
このデータの特徴を概観するには、集計する必要がありますが、代表的な集計方法としては、単純集計とクロス集計があります。

データを集計するには、まずは単純集計を行うのが有効です。

単純集計の代表的なものとしては、度数分布表があります。

クロス集計は、単純集計の1つになりますが、単純集計を2つ以上かけ合わせる集計方法になります。


(1)度数分布表


度数分布表とは、データ全体の中で、回答の個数(度数)によって表現される全体の傾向(分布)を示す表になります。
つまり、度数分布表は、一つの変数について、カテゴリーや階級ごとに当てはまるデータの数(度数)の分布をまとめた表です。

ここにいうカテゴリーとは、度数分布表の値、つまり選択肢のことを指しています。
例えば、質問として、101人の対象者に性別を確認する質問をしました。

「あなたは、男性ですか、女性ですか。」

その結果は、性別の度数分布表になります。

相対度数とは、各カテゴリーの個数を度数の合計値で割って算出したものになります。

相対度数(%)の計算の仕方は、

男性 18÷101人×100=17.8

女性 83÷101人×100=82.17


それ以外にも、例えば、10人の対象者に身長を聞いて、空欄に書いてもらう質問もあります。

変数:「身長は何センチでしょうか。空欄に身長を記入してください。」と。

その結果を表にしたものが身長の度数分布表です。



第31回第88問の選択肢

量的データの集計や分析に関する問題で、「度数分布表は、一つの変数について、それぞれのカテゴリー(階級)に当てはまる度数をまとめた表である。」〇か✖か






この選択肢は、正しいです。
度数分布表は、全体的な回答の分布の傾向を把握するのに適しています。



(2)クロス集計表


クロス集計表は、調査で得た質的データのうち、基本的に2変数に着目して集計・分析し、相対度数(%)によって変数間の関係を明らかにする集計法になります。

*質的データ
例えば、クレジットカード番号や電話番号などを始めとした、数字の大小や順序などの概念を持たないデータ群のことです。

*量的データ
年齢や物の長さ、重さなどの数値としての大小や順序が想定でき、場合によっては計算が可能なデータ群のことです。

それでは、クロス集計表の具体例を挙げます。

100人の対象者に対し、選挙で投票した人と投票しない人との間で、関心のある政策に違いがあるかを調査しようとしています。

変数:「貴方は選挙で投票しましたか。
1.はい。2.いいえ」

変数:「最も関心の高い政策は何ですか。
1.経済政策 2.福祉政策 3.教育政策 4.その他」

クロス集計の例 

この表ですが、選挙で投票した人と投票しない人との間で、関心のある政策に違いがあるか、この仮説を検討するためクロス集計を行ったものになります。
このクロス集計の場合は、2つの変数のカテゴリーのすべての組み合わせについて度数(データの数)を集計し、表で表現したものになります。
このクロス集計によって、観測度数(実数)と相対度数(%)とによって、2つの変数間の関連性を分析できます。

このクロス集計表では、投票した人と投票していない人のいずれも経済政策に関心があることが分かります。
しかし、投票していない人は、「経済政策」と「その他」とした人が多く、経済政策以外の政策にはあまり関心がないことが分かります。
これに対し、選挙で投票をする人は、経済政策以外の政策、つまり福祉とか教育にも関心があるようです。
このクロス集計表より、選挙で投票した人と投票しない人との間で、関心のある政策に違いがあるかという仮説を検証するわけですが、仮説どおりの違いがあることが分かります。
この仮説の検証によって、その後の政策指針として、福祉とか教育の政策を厚くしていくためには、投票に来ない人をして、いかに国の政策に関心をもってらい、投票をしてもらうかということが重要であることが分かります。

以上、ざっと見てきました。
以下では、データの集計と分析についてより深掘りして、確認しましょう。
その前に、今までのところの過去問を確認します。



第31回第88問の選択肢

量的データの集計や分析に関する問題で、「クロス集計表により変数間の関係を観察するには、相対度数ではなく、観測度数を表示する。」〇か✖か







この選択肢は、誤りです。
クロス集計表では、相対度数と観測度数を表示します。
また、あえて相対度数と観測度数のどちらかの表示をするという話であれば、相対度数(%)から変数間の関係を観察した方が観察しやすいです。というのは、クロス集計表では、行と列の母数がそれぞれ異なります。なので、クロス集計表で変数間の関連を観察する場合、観測度数(実数)では観察しにくいです。ですから、相対度数(%)から、変数間の関係を観察した方が観察しやすいです。
相対度数とは、各階級の度数を全体で割った数値を言います。
観測度数とは、観察された実数を言います。



2.データの集計と分析について


収集したデータをどのように分析するか。
分析の方法は、同時に考慮する変数の数と変数が質的データか量的データかによって異なります。

ここに出てくる変数とは、ある概念をいくつかに分類できるときに、分類される値を取るようなものを指します。
要するに、変数は、データでの対象になる項目です。

変数には、質的なものと量的なものがあります。

質的なものの具体例としては、択一式の質問の回答のようにカテゴリーを示すもので、性別とかになります。

これに対し、量的なものの具体例としては、身長、体重、年齢などのように数値化されるものがあります。



(1)度数分布表


測定値の分析、つまり各質問の選択肢ごとの件数を知るために用いるのが、度数分布表です。
要するに、度数分布表は、それぞれの選択肢を選んだ人が何人ずついるのかを見るための表になります。
質的データの場合は、男性、女性といった値ごとに件数(これを度数といいます)や割合(相対度数といいます)を出します。

また、量的データについては、前に見た10人の人に身長を質問する調査で、回答を1 ㎝ ごとに集計すると分かりづらくなってしまいますので、例えば、5㎝刻みでグループを作り、集計します。
このグループのことを階級と言い、集計した件数のことを度数と言います。



第32回第89問の選択肢

量的調査の集計と分析に関する問題で、「質問紙調査のデータを集計する際に、全体的な回答の分布を見たい場合に、度数分布表を用いることはない。」〇か✖か







この選択肢は、誤りです。
度数分布表では、それぞれの選択肢を選んだ人が何人ずついるのかを見るための表になります。よって、度数分布表は、全体的な回答の分布を見るのには適しています。



(2)クロス集計表


変数同士の関係を見るときは、クロス集計表を作成します。
要するに、何らかの変数と何らかの変数を結びつけて、その関係を見ていくための入り口になる表が、クロス集計表です。

それでは、クロス集計表の具体例を挙げます。

100人の対象者に対し、選挙で投票した人と投票しない人との間で、関心のある政策に違いがあるかを調査しようとしています。

変数:「貴方は選挙で投票しましたか。
1.はい。2.いいえ」

変数:「最も関心の高い政策は何ですか。
1.経済政策 2.福祉政策 3.教育政策 4.その他」

クロス集計の例 

この選挙に関するクロス集計表では、選挙で投票した人と投票しない人との間で、関心のある政策に違いがあるかを調査しようとしています。
この調査結果を検討するために、2つの変数を同時に集計した表がクロス集計表です。
このクロス集計表では、観測度数(実数)と相対度数(%)によって、2つの変数間の関連性を分析するわけです。


縦軸を表側と言いますが、各項目は、表側(分析)項目と呼ばれます。
ここは、変数のうちでも独立変数をとります。

横軸を表頭と言いますが、各項目は、表頭(集計)項目と呼ばれます。
ここは、変数のうちでも従属変数をとります。

独立変数は、調査者が意図的に変化させる変数です。
例えば、「選挙で投票しましたか。『はい』と『いいえ』」という独立変数にした場合、「最も関心のある政策は何ですか。『経済政策』『福祉政策』など」という従属変数はどのように変化するのか?という感じです。

一方、従属変数は、独立変数の変化によって影響を受ける変数です。

周辺度数は、行または列の度数の合計を指します。

全体の合計のことを総和と言います。



第27回第87問の選択肢

クロス表とその分析に関する問題で、「クロス集計表のクロスとは、各セルに表頭項目又は表側項目の頻度などが入るという意味である。」〇か✖か







この選択肢は、誤りです。
クロス集計表のクロスとは、表頭項目と表側項目の交わりの事を意味します。
クロスを重ねることで、回答内容の細分化に繋げることができます。



第27回第87問の選択肢

クロス表とその分析に関する問題で、「周辺度数とは、総計のことである。」〇か✖か







この選択肢は、誤りです。
周辺度数とは、指定された表頭項目や表側項目の度数(データの数)の合計のことを言います。
総計は、全体の合計のことです。



第24回第80問の選択肢

「クロス集計を行って変数間の関連を観察するには、相対度数ではなく観測度数を表示するのがよい。」〇か✖か






この選択肢は、誤りです。
クロス集計表は、観測度数と相対度数を表示することによって分析をすることになりますので、選択肢のように相対度数を表示することを軽視することは間違いになります。



(3)代表値


いま見てきたような、度数分布表やクロス集計表だけでなく、数値を用いて観測したデータの分布を知ることもできます。
これを知るためには、記述統計量(基礎統計量とも言います。)、つまり標本の分布の特徴を代表的に(要約して)表す統計学上の値を見ていくことになります。
分布の特性を表す数値のうち、特にデータの分布の特徴や傾向を示す客観的な尺度となる数値を代表値と言います。

ここにいう、代表値には、平均値、中央値、最頻値、最大値、最小値の5つがあります。

ここでも例を使って確認していきましょう。

例えば、要介護グループの参加者10名の年齢を確認したとします。その結果、65歳が2名、66歳が3名、67歳が2名、68歳が1名、69歳が1名、71歳が1名でした。これを図で表すと、こうなります。

この表は、対象者を若い人から順に並べたものになります。

では、参加者10名の年齢について、平均値、中央値、最頻値、最大値、最小値を求めてください。

では確認していきましょう。

平均値は、ケースのデータの総和をケースの個数で割った数値になります。つまり、10人の年齢を全て足して人数で割った値のことです。

65+65+66+66+66+67+67+68+69+71=670
670÷10人=67 平均値は67歳です。

中央値は、観測値を小さいものから順番に並べた場合、全体の真ん中にくる数値のことです。
例えば、回答者が奇数であった場合。参加者の人数が9名であれば、前から5番目の人がちょうど真ん中にあたります。
今回の例では、真ん中は5番目の66歳と6番目の67歳の2つです。
このような場合の中央値は、真ん中にあたる66歳と67歳の両方を足して2で割った値である66.5が中央値となります。

最頻値は、最も頻度が高い、つまり件数が多い測定値のことです。
66歳の方が3名と最も多いので、最頻値は66歳となります。

最大値は、ケースの中で、最も大きい数値を指します。
71歳

最小値は、ケースの中で、最も小さい数値を指します。
65歳



第31回第88問の選択肢

量的データの集計や分析に関する問題で、「中央値とは、データの中で出現率が一番高い値のことである。」〇か✖か






この選択肢は、誤りです。
中央値とは、データを大小の順番に並べた時にちょうど真ん中に来る数値のことです。
選択肢の内容は、最頻値についての説明です。



第23回第81問の選択肢

質問に対する回答の分布の代表値に関する問題で、「観測値の個数が偶数の場合には、中央値は存在しない。」〇か✖か







この選択肢は、誤りです。
観測値の個数が偶数の場合にも、真ん中にある2つの観測値の両方を足して2で割った値が中央値になります。なので、偶数の場合にも中央値は存在します。



第23回第81問の選択肢

質問に対する回答の分布の代表値に関する問題で、「人々の年収額の分布では、平均値(算術平均)より高い人と平均値(算術平均)より低い人の数は等しくなる。」〇か✖か







この選択肢は、誤りです。
平均値と人の数には関連はありません。
平均値は、ケースのデータの総和をケースの個数で割った数値になります。例えば、10人いたとして、10人の年齢を全て足して人数で割った値のことです。

65+65+66+66+66+67+67+68+69+71=670
670÷10人=67 平均値は67歳です。

このケースで明らかなとおり、平均値(算術平均)より高い人と平均値(算術平均)より低い人の数は等しくないです。

ちなみに、中央値の説明であれば、中央値より高い人と中央値より低い人の数は等しくなります。



第23回第81問の選択肢

質問に対する回答の分布の代表値に関する問題で、「一つの分布において、平均値(算術平均)、中央値、最頻値はそれぞれ一つに定まる。」〇か✖か






この選択肢は、誤りです。
確かに、平均値、中央値は、一つに定まります。しかし、最頻値は、最も度数が多かった値なので、複数存在する場合があります。
例えば、要介護グループの参加者の例で、65歳の人、66歳の人、それぞれ3人であれば、この65歳と66歳が最頻値となりますので、1つに定まりません。



第23回第81問の選択肢

質問に対する回答の分布の代表値に関する問題で、「名義尺度変数では、中央値を求めることができないが、最頻値は求めることができる。」〇か✖か






この選択肢は、正しいです。
名義尺度は、変数の分類の一つになりますが、質的な変数(尺度)になります。例えば、「あたたの性別は?」という質問に対する回答である「男」とか、「女」とかですね。とにかく量的ではなく、質的な変数になりますので、量的な値を前提とする中央値は求めることはできません。また、同じ理由で、平均値も求めることができません。これに対し、最頻値は、最も頻度が多いというものなので、質的なものにも対応できます。先ほどの例で、男か女かで最頻値を出すことは可能です。



第34回第88問

事例を読んで、集計結果に関する次の記述のうち、正しいものを1つ選びなさい。
〔事例〕
Xデイサービスでは、本日9名の参加者が来所して交流を行い、心身機能の維持のための活動を行った。参加者は、男性が65歳、68歳、72歳の3名であり、女性が65歳、65歳、66歳、67歳、70歳、77歳の6名である。

1 参加者全体の年齢の中央値は65である。

2 男性参加者の年齢の分散は、女性参加者の年齢の分散より大きい。

3 男性参加者と女性参加者の年齢の最小値は異なる。

4 女性参加者の年齢の最頻値は77である。

5 参加者全体の年齢の範囲は12である。




解説

選択肢1は、誤りです。
中央値は、観測値を小さいものから順番に並べた場合、全体の真ん中にくる数値のことです。
参加者9人の場合の全体の中央値は、年齢を小さい順に並べて5番目の人の年齢になります。選択肢の場合の年齢の中央値は、67歳になります。

選択肢2は、誤りです。
年齢の範囲は、男性参加者は、65歳から72歳で、女性参加者は、65歳から77歳です。
一般的に、範囲が広いほど(ばらつきが大きいほど)、分散が大きくなります。よって、年齢の分散は、男性よりも女性のほうが大きいです。

選択肢3は、誤りです。
最小値は、ケースの中で、最も小さい数値を指します。
選択肢における最小値は、男性、女性ともに65です。

選択肢4は、誤りです。
最頻値は、最も頻度が高い、つまり件数が多い測定値のことです。

選択肢5は、正しいです。
年齢の範囲は、一番大きなデータの数値から一番小さなデータの数値を引いた数となります。選択肢においては、77-65=12が年齢の範囲となります。

同じような問題が、第27回第88問でも出題されています。



(4)平均値・中央値・最頻値の関係と歪度について


調査の結果得られたデータを分布にした場合、データに極端に大きな、あるいは小さな値がなければ、そのデータの分布の形は、つりがね状の左右対称をもつ分布になります。これを正規分布と呼んでいます。
この場合の歪度は、ゼロです。


例えば、5人のクラスの学生のお小遣いの額の調査をしたとして、

正規分布の場合には、平均値と中央値と最頻値の関係は、平均値5000=中央値5000=最頻値5000という関係になります。

これに対し、はずれ値(データをとった時に、極端に大きな値、又は極端に小さな値が出ることがありますが、この値を言います。はずれ値は、全体の平均値を引き上げたり、引き下げたりします。)による影響により分布の形が、右傾(うけい)する分布の場合と、左傾(さけい)する分布の場合があります。

極端に大きな値がある場合には、このはずれ値の影響により、データの分布が、右傾した形の分布になります。

ここにいう右傾した形の分布というのは、値の分布が右へより細長くなっている場合を言います。この場合の歪度は、正となります。


この場合の平均値と中央値の関係は、「中央値 〈 平均値」という関係になります。

ここでもお小遣いの事例を使って説明しますが、1位は、・・
平均値は、2万0800円で、中央値は、5000円となり、中央値の方が小さい額になっています。

次に、極端に小さい値がある場合には、このはずれ値の影響により、データの分布が、左傾した形の分布になります。

ここでいう左傾した形の分布というのは、値の分布が左へより細長くなっている場合を言います。


この場合の平均値と中央値の関係は、「平均値 〈 中央値」という関係になります。

ここでもお小遣いの事例を使って説明します。
1位が9000円・・・
この事例だと、平均値は、4500円で、中央値は、5000円となり、中央値の方が額が大きくなっています。

要するに、平均値と中央値の関係は、中央値はいつも真ん中あたりにありますが、はずれ値があると、平均値がその影響を受けて、中央値より大きくなったり、小さくなったりするわけです。で、平均値は、はずれ値のある方に近づくという関係になります。
要するに、中央値はいつも真ん中あたりにありますが、平均値は右に行ったり、左に行ったりと動くわけです。



第23回第81問の選択肢

「平均値(算術平均)は、はずれ値の影響を受けやすいので、中央値より常に大きくなる。」〇か✖か






この選択肢は、誤りです。
確かに平均値がはずれ値の影響を受けやすいという部分はその通りです。そして、平均値は、はずれ値の影響を受けやすいため、中央値より大きくなったり、小さくなったりします。
選択肢の「平均値が中央値より常に大きくなる」という部分は誤りになります。



第32回第89問の選択肢

「データの分布を代表する値として平均値を用いておけば、中央値や最頻値は見なくてもよい。」〇か✖か






この選択肢は、誤りです。
データがつりがね状で左右対称の分布(正規分布)の場合には、平均値は中央値や最頻値と一致します。なので、このような場合には、平均値に着目すれば実情が分かります。
しかし、正規分布から歪んだ分布になるほど、平均値と中央値、最頻値のズレは大きくなります。特にデータに極端な外れ値が含まれていた場合には、平均値は、この外れ値によって大きく引っ張られてしまい、実情を表さなくなります。
よって、このような外れ値があるような場合は、データを代表する値としては平均値は適さないわけです。よって、データの分布によっては、平均値だけではなく、中央値や最頻値という代表値も見ておく必要があります。中央値や最頻値に着目した方が実情に沿いやすいこともあるわけです。


この記事が気に入ったらサポートをしてみませんか?