見出し画像

ウェイトバックの計算、間違っていませんか?

今回は「ウェイトバック」についての話です。

これは、平均値と並んで間違える方が意外と多いです。
(関連記事:平均値の計算、間違っていませんか?


データ分析を行う際、調査によって回収したサンプルの数が多いに越したことはないのですが、それでは手間とコストがかかりすぎてしまいます。
(国勢調査を自腹で行うことを想像するとわかりやすいかと思います。)

そこで、例えば人口構成比に合わせて調査結果を分析したい時などは、回収したサンプルの構成比を、別の構成比に補正して集計することがあります。

これを「ウェイトバック集計」と呼びます。
このウェイトバック集計を行う際にウェイト値を設定するわけですが、その値の算出方法を間違えている人が少なくありません。

ですので、
具体例を交えながら、できるだけわかりやすく解説してみようと思います。


「別の構成比に補正」と言っても、実際には「サンプル数を補正」することで構成比を補正します。
※ここでの「サンプル数」は、「回収したデータの件数」を意味します。

例)

画像1

※ %表は、全サンプルの数に対する割合を表示してあります。
(画像をクリックすると大きな画像で見れます)

なぜかというと、
構成比だけを補正した場合、サンプル数が合わなくなることがあるからです。
ここに気付かないまま指示される方が意外といます

補正前の値と補正後の値には

  補正前の値 × ウェイト値 = 補正後の値

の関係式が成り立ちます。ここから、

  ウェイト値 = 補正後の値 ÷ 補正前の値

という式でウェイト値を算出することができます。

では、上例のWB後の表になるよう

●サンプル数(n表)を基にウェイト値を算出した場合
●構成比(%表)を基にウェイト値を算出した場合

の2通りの方法でウェイトバック集計を行ってみます。

■サンプル数(n表)を基にウェイト値を算出した場合

ウェイト値は以下のようになります。

20 代男性: 1.00
20 代女性: 3.00
30 代男性: 1.50
30 代女性: 2.50

これを使用してウェイトバック集計した結果が↓です。

画像2

※ %表は、全サンプルの数に対する割合を表示してあります。
(画像をクリックすると大きな画像で見れます)

この結果は、
サンプル数・構成比(%表)とも、例のWB後の結果と一致しています。

■構成比(%表)を基にウェイト値を算出した場合

ウェイト値は以下のようになります。

20 代男性: 0.50
20 代女性: 1.50
30 代男性: 0.75
30 代女性: 1.25

これを使用してウェイトバック集計した結果が↓です。

画像3

※ %表は、全サンプルの数に対する割合を表示してあります。
(画像をクリックすると大きな画像で見れます)

この結果を見てみると、
構成比(%表)は例の構成比になっているものの、サンプル数の合計は 400 件のままになっており、例の値( 800 件)と異なっています。
例の表のWB後n表と比較してみて下さい。)

というわけで、ウェイト値はサンプル数(n)を基に算出しましょう。

また、大抵のウェイト値はキレイな値にならないと思います。
その場合、可能な限り細かい数字を使用しましょう。
あまり大雑把な数字(小数点以下 1 桁など)を使うと、集計結果の誤差が大きくなります。

エクセルの場合、「セルの書式設定」の表示形式で「数値」を選び、「小数点以下の桁数」を増やせばOKです。
私は 14 桁くらいで設定しています。
それ以降は 0 が続くので、エクセルの限界なのではないかと思います。

また、
ウェイトバック集計の集計のやり方を間違えている方や会社も少なくなさそうですが、こちらはまた別のお話で。

この記事が気に入ったらサポートをしてみませんか?