見出し画像

コンサルの勉強記録:××する人は年収が高い系調査って本当?publication bias /file drawer ploblemについて

毎朝××をする人は年収が高い、太りにくい、病気になりにくい、宝くじにあたりやすい・・・ネットやテレビ、本などにはこういった情報があふれかえっています。
それらは明らかに根拠がないと思われるものから、なかには企業や大学などの調査結果の内容と共に信憑性が高そうなものまでさまざまですが、それって本当なの?と、自戒も込めて備忘メモです。

相関調査は難しい

××する人は○○、といった調査でよく使われるのは相関によるものです。
例えば、毎朝卵かけ納豆ご飯を食べる人は年収が高い/高くなる傾向がある、という中々ふざけた仮説を示したい場合には
年収が高い(仮に600万円以上としましょう)とそうでない人を集めてきて毎朝何を食べているか調査する、
あるいは
年収が同程度の人たちを集めてきて、毎朝Aグループには卵ごはん、Bグループには納豆ごはん、Cグループには卵かけ納豆ご飯を一定期間食べ続けてもらって、年収の上がり具合を調査する
などの方法が考えられます。

これらはいずれも相関関係で、調査したい事象がある場合(卵かけ納豆ご飯を食べる)とない場合を比較することになります。
この比較調査の理想の条件は、調査したい事象が唯一の違いであること、ですが現実的には難しいです。
卵かけ納豆ご飯ではなく、付け合わせのネギが効いている場合もあるかもしれないですし、和食の朝ごはんにしたことによりコーヒーを飲まなくなったことが原因かもしれないし、
あるいは、調査対象の人たちが年収の高い業種に偏っていたかもしれない、遺伝的な要因があるかもしれない、など、他要因も考えられます。


こういった他要因を完全に取り除こうと思うと、
同じ人に2022年から2027年まで毎朝納豆卵かけ納豆ご飯を食べてもらったときの2027年の年収と、
その人に調査後2022年までタイムスリップしてもらってまた2027年まで今後は毎朝卵かけ納豆ご飯以外のものを食べてもらう、などすればできるかもしれませんが、
この場合も、一度2022年から2027年を経験しているのでその経験値で年収が高くなったと考えるほうが自然でしょう。

例では、卵かけ納豆ご飯と年収という、普通に考えてあり得ない例なのでそれはそうだ、となるかもしれませんが、仮に年間N冊以上読書する人は年収が高い、などそれっぽい内容だったとしても同じような問題はあります。

こういった他要因をできるだけ除く手法として、RCT(Randomized Controlled Trial):ランダム化比較実験、という方法がとられるので気になった方は調べてみて下さい。

発表されやすい調査結果とされにくい調査結果

肯定的な調査結果の方が、否定的な調査結果に比べ発表されやすい、というデータがあります。

先ほどの例でいくと、卵かけ納豆ご飯は年収とは何の関係もありませんでした(否定的な調査結果)に興味を持つ人はまずいないでしょうし、発表もされないでしょう。何ならお金と時間の無駄遣いとして怒られてしまいそうです。
しかし、仮に卵かけ納豆ご飯を食べることの年収に関係がある(肯定的な調査結果)が出た場合にはどうでしょうか。きっと多くのメディアがこの調査を取り上げ、卵と納豆の売り上げが上がるでしょう。
納豆生産者は喜んでこのデータを大々的に宣伝に使うかもしれません。

このように、肯定的な調査結果のほうがそもそも発表されやすく、また、仮に否定的な調査結果が発表されたとしても、それより多く肯定的な調査結果が繰り返し公表されることをpublication bias(出版バイアス)と言います。
また、調査の結果が否定的だった場合に利害関係などから調査結果が公表されない(研究者の引き出しにしまわれてしまう)ことをfile drawer ploblem(お蔵入り問題)と言われます。

製薬会社による薬への治験結果など過去に問題となった事例も複数あります。

まとめ

××する人は○○系調査は多くあるが、データが出ているからと言って鵜呑みにするのは危険。
なぜなら、
相関調査によるものであれば、XXを唯一の違いとすることは難しく、調査の対象人数や母体により結果が変わりうる、
また、
たまたまその調査は肯定的な調査結果が出たかもしれないが、未発表あるいは発表されているが大きく取り上げられていない否定的な調査結果があるかもしれないから。

世の中難しいことだらけですね・・・。

この記事が参加している募集

#週末プロジェクト

4,747件

サポートよろしくお願いします。わたしも全力であなたを応援します。