見出し画像

実数値のウェイトバック集計に注意

最近は、
わからないことでもすぐにネットで検索して調べることができます。

ただ、
ウェイトバックの方法として「実数値にウェイト値を掛ける」という間違えたやり方を載せているサイトがあったので、今回は、それの何がマズイのかを書こうと思います。

実は 2011 年頃、
大手調査会社が配布していた集計ソフトにおいて、この間違った方法でウェイトバック集計を行っていると思われる集計結果を確認しています。
※現在はどうなのかわかりません。


まず、集計結果にウェイト値を掛けてウェイトバック後の値を算出する方法は、集計結果が

【条件1】
ウェイト値を算出するのに使用した組合せの GT 表(単純集計表)もしくは分析軸である(例:性×年代)
【条件2】
選択(カテゴリー)型である

の 2 つを満たしていることが前提になります。


【条件1】
ウェイト値を算出するのに使用した組合せの GT 表(単純集計表)もしくは分析軸である

これは単純な話なのですが、例えば「性×年代」でウェイト値を設定した場合、表頭か表側のどちらかに「性×年代」がないとウェイト値が判別できなくなるので、計算ができません。


【条件2】
選択(カテゴリー)型である

不思議に思う方もいるかもしれませんが、これは結構重要だったりします。
その理由を、以下のようなデータで確認してみます。

画像1

このデータの Q1 が実数値、WB がウェイトバック用に設定されたウェイト値です。

このデータを単純に集計すると、

件数= 4 件 ※以下「n」
Q1 の合計= 400
Q1 の平均値= 400 ÷ 4 件= 100

となります。


では、
集計結果にウェイト値を掛ける方法でウェイトバック後の値を算出するとどうなるでしょうか?

今回の場合、
Q1 のデータは皆同じなので、WB の違いで 2 つのグループに分けます。
すると、どちらも

n = 2 件
Q1 の合計= 200
Q1 の平均値= 200 ÷ 2 件= 100

となります。

ここにそれぞれウェイト値を掛けてみると、

◆WB=1 のグループ

n = 2 件× 1 = 2 件
Q1 の合計= 200 × 1 = 200
Q1 の平均値= 200 ÷ 2 件= 100

◆WB=0.5 のグループ

n = 2 件× 0.5 = 1 件
Q1 の合計= 200 × 0.5 = 100
Q1 の平均値= 100 ÷ 1 件= 100

これらをまとめると、

n = 2 件+ 1 件= 3 件
Q1 の合計= 200 + 100 = 300
Q1 の平均値= 300 ÷ 3 件= 100

ここで、
「実数値にウェイト値を掛けても問題ないじゃん」と思った方、ちょっと待ってください。

同じことをデータ 1 件で試してみます。
(文章がくどくなるので、WB=0.5 のみ。)

◆WB=0.5 のサンプル

n = 1 件× 0.5 = 0.5 件
Q1 の合計= 100 × 0.5 = 50
Q1 の平均値= 50 ÷ 0.5 件= 100

お気づきでしょうか?
1 件だけで集計した場合と、データにウェイト値を掛けたものが同じになります。
実数値 100 にウェイト値 0.5 を掛けると、実数値が 50 になります。

ここで「あれ?おかしいぞ?」と思ったあなた!
あなたはウェイトバックを理解されています。(少なくとも感覚的には)


さて、ここで「ウェイトバック」と「集計」について確認します。

【ウェイトバック】
「データに重みを与える(重みを変える)」こと
です。
「データに重みを与える」というのは「データを変える」ことではありません。
【集計】
「数字を集めて計上する」
ことです。
データを積上げると言い換えてもよいでしょう。

つまり、
「ウェイトバック集計」とは「データに重みを与えたものを積上げる」ことなんです。
「実数値 100 のデータが 50 になる」わけではなく、「実数値 100 のデータの重みが 1 から 0.5 になる」だけなんです。

両者をデータにして表すと、以下のようになります。

画像2

違いを分かりやすくするために中央値も出してみました。

ここからもわかるように、
実数値にウェイト値を掛けてしまうと、基本統計量に違いが出てくる場合があります。

私が過去に大手調査会社が配布している集計ソフトで確認したのは、まさにこの中央値の誤りでした。

確認などで手計算される場合はご注意ください。


この記事が気に入ったらサポートをしてみませんか?