見出し画像

統計の3つの罠

こんにちは。早いものでもう1年ですね。

(この記事はユアマイスターアドベントカレンダー2021の13日目の記事です。)

さて、何書いたろかぁ、と思い昨年の記事を見たら、”分析の3C”だと。まあまあ頑張って書いてるな、1年前の自分。
今回の投稿にあたり、一通り読み返してみたものの、こっからさらに深堀するの厳しいなぁ、と思いましたので、辛うじて感じ取れたインスピレーションから捻りだしました。

「3」です。

別に今回紹介する3つがすべてだとは微塵も思っていませんが、思いついた順=代表的なやつということで3つです。
日本人は3が好きらしいですしね。諸説。

概要

分析の「ぶ」ぐらいのことをやってると踏みがちな3つのポイントを紹介したいと思います。

「あるあるネタ」みたいなもんなので、ご覧いただく中で一つでも「あぁ~」ってなってもらえればOKです。
踏んだことないものについては「へぇ~、そういうのもあるのか!」と脳みその引き出しの奥深くに仕舞い込んでいただいて、実際に大型地雷を踏みつけて半身が吹っ飛ぶくらいの思いをした後に、「この威力…これが統計の罠か…」と打ちひしがれてから、「平均」というワードを聞くたびにその体験を思い起こして「作らなきゃ…ヒストグラム…作らなきゃ…!」とPTSDになるくらいに脳裏に焼き付ければ良いです。

平均の平均の罠

まずはベーシックなやつ。
これは普段からデータを扱い、分析に関わる人であれば一度は通る道。

あるクラスのテストの結果、
男子の平均点は50点
女子の平均点は60点
でした。

なのでこのクラスの55点です!

というやつ。だいたいの人はピンと来たと思います。

男子が9人で女子が1人なら、平均点は51点です。
男子が1人で女子が9人なら、平均点は59点です。

平均の平均取ったら、それはもはや謎の数字、ということ。
ここまでのはさすがになかなかないですが、


あるECサイトで、1ヶ月のCVRの話。
前半の半月はだいたい毎日、CVRが1%。
後半の半月は、セールの企画を実施しており、だいたい毎日、CVRが3%。
これで15日間と15日間なんで今月のCVRは平均1.5%です!

ぐらいのやつは、たまーに見かけるので、冷静に突っ込んであげましょう。
これの発生する要因は9割がた手抜きです。分母と分子をそれぞれSUMしてから割らずに、商を直接AVERAGEするレベルの怠慢。
複数の平均を出して話をする輩がそれぞれの分母を明示してないなら詐欺師と思え、という教訓です。

平均の罠

次はもうちょい大きめの地雷になりえるやつ。

洋服を作ってるある工場で。
日本人の平均身長は164cmだから、164cmの人にジャストフィットするサイズを一番多く生産して、そこから離れるサイズの量は少しずつ作るのが正解のはずだ!

はい、不良在庫が積まれるのが見えますね。
日本人の平均身長は男性が170cm、女性が158cm。


起こる状況としては上記のような形になります。(実際に身長の分布が正規分布に従うかは知りませんが。)
一番生産量の高いところの部分だけ供給過多になる or 男女の山の部分の在庫が不足する、ということが起こるやつです。

ある程度のボリュームが最も在庫の高い山の部分=平均にいるので、まだ救いのあるパターンですが、現実としてはもっと救いのないパターンが起こりえて、

あるサービス業で、オプション等込みでの1件当たりの単価を、全体の平均取ったら18000円が平均単価だったので、価格を18,000円にあわせてメニューを価格にあわせて改定してみたら、

都心部だと20,000円分のリッチなサービスが好まれ
それ以外の地域では15000円分のスリムなサービスが好まれ

という違いがあったため、都心の人から見ると物足りず、それ以外の地域の人からすると過剰なメニューになってしまい、誰にも刺さらない結果としてまったく売れなくなった

みたいなのが起こったりする。
平均だけ見て決めるのはキケン。

これを回避するには、カテゴライズ(”3C”の壱!)のセンス、あるいは経験値が重要。
性別で切ればきれいに分かれますが、逆に言うときれいに分かれない切り口ではいくら切っても何も見えない。

身長の例であれば、たとえば切り口として「県別の身長」を持ち出してもそこまでほとんど差がなくて意味がないですよね。これがグローバルな話であれば「モンゴロイドとネグロイドとコーカソイドの身体的特徴が…」「国家ごとの栄養事情やら食文化やら…」みたいな話も絡んで、地理的要因に基づいたカテゴライズが意外と的を得ていたりする可能性が生じるのが面白いところ。

“脆弱性”の罠

これも実務上、踏む人は結構います。

あるゲームアプリのユーザーの月間の平均利用額は500円でした。

有料利用者率を増やす施策を入れたら、平均利用額が2000円になりました。
めでたしめでたし…でも本当に?

実際、蓋開けてみたら、全体のユーザー数は100人で、10人が5000円、90人が0円だったところから、ある一人の人が20万近く使っていただけ、みたいなことだったりします。
ちゃんと蓋開けるならいいですが、ここまでの話で「大成功でした!」とか都合よく言っちゃったりしてるケースも。

いわゆる統計値の頑健性といわれるもののお話です。(上記の例では、利用率自体もモニタリングしとけ、というのもツッコミポイントですが)

平均、というのは1つ異常な値(外れ値ってやつ)が混じると全体を把握する上で意味をなさなくなることが多い。
一方で、中央値は施策前後で変わらず0円です。
こういう特徴を捉えて中央値は頑健、平均は脆弱とか言ったりします。超ざっくりですが。

これは上記2つに限った話ではなく、ある前提が崩れると途端に信用ならなくなるものは結構あって、相関とかもその類ですね。外れ値除くだけでめっちゃ数値変わる。(相関といえば、「相関は因果ではない」ってやつがありますが、これはまたいずれ。)

ついでにありがちな話で言うと、「何の根拠もなく正規分布に則った分布をしている」という前提で考える人、めっちゃ多い。
先の身長の話だと、実際の分布はフタコブラクダ型になっているように、「平均→平均値をボリュームゾーンとした正規分布」は必ずしも成り立たず、むしろそんなきれいな正規分布はレアです。

さいごに

今回は統計の3つの罠についてでした。
ある程度慣れてる人なら鼻で笑うレベルの話でしたが、実務上ではちょいちょい見かけるので、戒めコンテンツ的にも書いてみました。
また来年!

この記事が気に入ったらサポートをしてみませんか?