見出し画像

選択肢を複数選んだら

興味があって地方自治体の市民意識調査をいくつも集めているのですが,たとえば「この1年間につぎの分野の学習をしましたか」のような設問に「1.趣味的なもの,2.教養的なもの,3.健康・スポーツ,4.社会問題,5.その他」のような選択肢があったときの集計方法についてあれこれ考えています。主なものを1つ選ぶなら集計は簡単です。結果を円グラフにするのもOKでしょう。しかし,複数選択の場合はやや複雑です。

2つの比率

上のような設問(設問や選択肢の内容についてはここでは問いません)をどのように集計するかについて,2つの方法があります。比率を計算するときの分母が違うのです。図で説明すると,こんな感じです。

画像2

この例では回答者が8人で,「1.趣味的なもの」は,A,B,C,D,Eの5人が選択しています。それを回答者数(8)を分母にして計算したのが比率Aで(当然,合計が100%を超えます),回答数合計(「合計」列の合計ですね)を分母にして計算したのが比率Bです(こちらは合計100%)。

地方自治体の調査をいくつか集めてみると,この2つの比率計算の方法のどちらを採用しているかが,自治体によってまちまちです。もしかしたら,同じ自治体でも調査年によって異なっていることがあるかもしれませんが,そこまではわかっていません。

最初の頃,わたしは「当然**のほうが正しい」と思っていましたが,ある時から,「本当にそう言えるのか」と思うようになりました。集計の方法は,その集計から何を主張したいかで変わるはずだからです。ですから,両方の集計方法に,それぞれの主張があってよいのではないか,と思うようになりました。以下,ちょっとした探索の記録です。

回答者数分母を採用する記事

ネットを検索してみると,回答者数を分母にする方法(上記「比率A」)を採用している記事が複数見つかります。次のようなものです。

パンフレットなどを作成している会社のWebページで,記事の書き方や公正の仕方など,さまざまなノウハウを紹介しています。その1つが上記の記事です。

解説は,商品を購入した理由をまとめるという設定で,サンプル数300,商品選択の理由を6つの選択肢から複数選択した架空データを集計しています。たとえば「機能」という選択肢を選択した人数が126人であり,これを300で割って42%という比率を出す手順が示されています。サンプル数で割っていますので,比率の合計は当然100%を超えています。

これはアンケート入力集計サービス会社のWebページです。イベント参加者に対するアンケートという想定で,どの媒体でこのイベントを知ったのか,のような設問に対して複数選択で回答した架空調査を集計しています。このサイトでは,「計算に使う値は回答数合計ではなく、回答者数です」と明記されています。

ここもアンケート入力集計サービス会社です。この記事では,「回答数合計」を用いた計算(最初の例の「比率B」)を明確に否定しています。

前述した「誤った集計」は、ずばり下の集計グラフです。下の集計グラフはそれぞれの回答を「合計回答数」で割っています。ゆえに20/140=13.9%」という計算結果となりますが、これって何か意味があるのでしょうか? このデータの合計回答数は「30名」です。30名のうちショートケーキを好きと答えた方が「20名」いれば、「20/30=66.6%」となるのが自然ではないでしょうか。

3つほど引用しましたが,これ以外にも,特に文章による説明はないものの,複数選択の集計では回答数合計ではなく,回答者数を分母にする方法,つまり冒頭の「比率A」方式を採用している記事が複数見つかりました。

回答数合計を分母にする記事

これに対して,回答数合計を分母にする方法を示している記事は1つだけしか見つかりませんでした。

マーケティングリサーチ会社のWebページです。文章で明確に説明されているわけではありませんが,それぞれの商品を選択した人数の合計を分母にして比率を計算しています。この記事では7つの商品について,それぞれの商品(好きなもの,あるいは便利なもの?)を選択した人数の合計は617で,この「617」を分母にして比率を計算し,比率の合計が100%になっていることを確認するように説明しています。したがって,回答者数ではなく回答数合計を分母にする方法と判断できます。

2つの方法の違いは

さて,どちらの方法をとるかについて,何か説明をしている記事として,次のものがありました。

システム企画会社のWebサイトで,さまざまな調査手法を解説したページの1つです。
まず,構成比の算出方法として,2つのことを考慮する必要があることが示されています。第一は「無回答」を分母に含めるかどうか,第二は分母を全有効回答者とするか,当該質問の対象者数とするか,です。そして「無回答をそれなりの意思表示である」と考えて分母に含め,「当該設問の回答対象者を絞っている」かどうかを考慮するとよいと解説されています。

つぎに複数選択の集計について,「単純な延べ総回答数を分母として構成比を出す方式」「上記A~Dの方式で構成比を出す方式」の2つの方法が示されています。前者が,本記事冒頭の「比率B」,後者が「比率A」に相当します。そして,

前者は単純に回答の構成比を見る数値であり、どのくらいの回答者がそれを選択しているかを見るには、後者のいずれかの方式がよい。この場合の構成比(%)合計は100を超えることになる。

と説明があります。これによれば,本記事で「比率A」方式として示している,回答者数を母数にする方法は,「どのくらいの回答者がそれを選択しているか」を見るのに適しており,「比率B」方式として示している,回答数合計を分母にする方法は,「単純に回答の構成比を見る」のに適している,というのが,ひとつの解答になりそうです。

情報損失の少ない方法はどちらか

では,記事の探索はこれくらいにして,わたしは現時点でどう考えているのかをまとめておきたいと思います。あれこれ考えた結果,重要なのは「どちらが情報損失が少ないか」だと思っています。冒頭の例を使って説明しましょう。

画像2

同じ表をもう一度出しました。さきほどの記事では,比率Bは「単純に回答の構成比を見る」方法だとしていました。合計が100%になっていますから,このまま円グラフや帯グラフに表すことも可能です。ただし,比率Aを使ってもそれは可能です。なぜなら,比率Aは,比率Bに簡単に計算し直せるからです。(ただし,すべての選択肢についての比率が算出されていることが必要です。もちろん,比率計算前の実数が示されていれば可能ですが,ここでは比率だけが示されているとして話を進めます。実際,そのような比率のみの集計表だけが提示されている調査報告もあるからです。)

画像3

計算し直す方法は簡単です。比率Aの合計(187.5%,上の表では少数表記に直していますから 1.875=黄色いセルの値)で,各選択肢の比率を割ればよいのです。表の2行目を例にすると,0.625÷1.875 = 0.333 です。この値は,比率Bの値に一致します。

ここで計算に使った比率の合計(1.875)は何を意味するかと言うと,選択数の合計を人数で割った値に一致します。つまり,一人当たり平均何個の選択肢を選んでいるか,という値です。この値も,調査結果として意味のある値だと私は思っています。この値をうまく使った分析にどういったものがあるか,例を示せないので説得力がないのですが。

では,逆はどうでしょうか。つまり,比率Bを用いて比率Aを算出することはできるのでしょうか。残念ながらできません。前述したように,比率計算前の実数が示されていればできます。上の表の場合には,調査対象者は8人,回答数の合計は15,と示されていれば,1人当たりの平均選択数(1.875)が計算できますから,さきほどと逆の計算(0.333×1.875=0.625)で比率Aを計算できます。しかし,比率Bだけの表から比率Aを計算することはできません。したがって,ここに「情報損失」がある,と私は考えます。

合計が100%にならないことへの違和感

それでも「合計が100%にならないこと」に対して違和感は残るかもしれません。(私は残りませんが,残る方もいらっしゃるのでしょう,きっと。)それについては,このように考えています。複数選択の設問は,もともと,Yes/Noの判断を求める設問を複数セットにしたものに過ぎないのではないか,ということです。

冒頭のような調査で,調査する側は何を求めているのでしょう。調査担当者に尋ねてみなければわかりませんが,おそらく,「趣味的なもの」を学習している人は全体(=母集団)の何%くらいいるのだろう,ということだと思います。「趣味的なもの」は比率Aで62.5%と出ていますから,「おそらく母集団の62.5%(±誤差)の人たちは趣味的なものを学習しているのだな」と予測できます。だとすれば,この設問は,単純に次のようにも書き換えられます。

> あなたは「趣味的なもの」を学習していますか? はい/いいえ

つまり,最初に示した架空の調査は,「この1年間につぎの分野の学習をしましたか」の問いに続けて,「趣味的なもの・・・学習した/学習しなかった」「教養的なもの・・・学習した/学習しなかった」(以下略)と書いてもいいわけです。このようなYes/No選択の問いが複数並んでいるだけなのだと考えれば,これらの比率を合計することにあまり意味がないことは明白です。つまり,複数選択であってもそれは1つの設問であることに変わりはないのだから,合計は100%であるべきだと,こだわる必要はないのです。

とはいえ,実際にはこのような調査方法は使われていません。その理由はいくつか予想できます。まず,かなり冗長になる感じは否めません。選択肢の数にもよるでしょうが,内閣府の同様の調査(生涯学習に関する世論調査)では,学習の分野として(その他を含め)12の選択肢が並んでいます。そして,「生涯学習をしたことがない」という選択肢も同列に並んでいます。学習に興味のない人にとって,「学習していない」に12回も〇をつけるのはストレスでしょう。そうでなくても,それぞれの選択肢についてどちらかを選ばなければならない設問構成は,回答者への負担が増します。

そこで,「学習したものをいくつでも選んで〇をつけてください」として,回答してもらう,あるいは,「主なものを3つまで」と制限する(こういう設問をしている自治体もあります)ことで,それほど熱心に取り組んでいるわけではないものを選択させないように促している(結果として,どんな分野が好まれるかの傾向が出やすいのでしょうか?)。こうした調査方法が採用されているように思います。

タイトル画像

いつものサイトから,検索語「survey」で。Photo by Firmbee.comです。