同じデータなのに部分と合計で結果が変わる! 「シンプソンのパラドックス」
問題:AくんとBくん、どっちが優秀?
AくんとBくんが、1回目と2回目で合わせて110問を解くというテストを受けました。1回目のテストでは、Aくんは、100問を解き60問正解で、Bくんは、10問を解き9問が正解でした。2回目のテストでは、Aくんは10問中1問、Bくんは100問中30問が正解でした。さてAくんとBくんのどちらが優れているでしょうか?
【1回目】
Aくんの正解率:60/100=60%
Bくんの正解率:9/10=90%
優劣の判断:BくんのほうがAくんより優れている。
【2回目】
Aくんの正解率:1/10=10%
Bくんの正解率:30/100=30%
優劣の判断:BくんのほうがAくんより優れている。
【全体】
Aくんの正解率:61/110=55%
Bくんの正解率:39/110=35%
優劣の判断:AくんのほうがBくんより優れている。
1回目でも2回めでもBくんのほうが優れているのに、合計するとAくんのほうが優れていることになりました。こういった部分での相関関係と全体での相関関係が、逆転したり、異なる結果になることを「シンプソンのパラドックス」といいます。
シンプソンのパラドックス
シンプソンのパラドックス(Simpson's paradox)とは、
確率・統計学において、いくつかのデータ群に傾向が見られるが、それらのデータ群を組み合わせると、傾向が消えたり、逆になったりする現象
です。「ユール=シンプソン効果(Yule–Simpson effect)」とも呼ばれます。1951年にE. H. シンプソン(Edward H. Simpson)によって明らかにされた統計学的なパラドックスです。特に頻度データに因果関係の解釈が不当に与えられている場合に問題となります。
母集団での相関と、母集団を分割した集団での相関は、異なっている場合があります。つまり集団を2つに分けた場合にある仮説が成立しても、集団全体では正反対の仮説が成立することがあるということです。社会科学や医療科学の統計でよく見られます。怖い!
対策・応用
(1)同じデータであっても異なる因果構造に起因するものであれば異なる解析が必要。
(2)実りのある因果推論を行うためには、統計学だけではなく、主題に関する因果関係の知識が必要。
シンプソンの言葉です。
関連した認知バイアスなど
•選択バイアス(Selection bias)
適切に無作為なサンプルを抽出しないことで生じる、不正確な分析結果に至る偏りのこと
認知バイアス
認知バイアスとは進化の過程で得た武器のバグの部分。紹介した認知バイアスは、スズキアキラの「認知バイアス大全」にまとめていきます。
フォロー&「いいね!」をしていただけると喜びます。
スズキアキラのnoteでは、ビジネスに役立つエビデンスを紹介しています。おもしろい!と思っていただければ、「フォロー」や「いいね!」をわたしはとても嬉しいです。
参照
※2:シンプソンのパラドックス
#科学 #ビジネス #ビジネススキル #エグゼクティブ #経営者 #生産性 #オフィス #認知バイアス
この記事が気に入ったらサポートをしてみませんか?