疑似相関を見つけることはできるのか
「疑似相関」(Spurious correlation)という言葉も,ずいぶん広まってきた印象があります。疑似相関について取り上げた記事やwebサイトもよく見かけますし,SNSでも何かの記事に対して「それは疑似相関ではないか」という書き込みを目にすることがあります。
このページ「疑似相関に気をつけろ!」でも,疑似相関について解説がされています。
目次
・疑似相関コレクション
・疑似相関でも関連はある
・相関関係と因果関係
・疑似相関
・疑似相関はなかなか見つからない
疑似相関コレクション
疑似相関が話題になったのは,このwebサイトが広く紹介されたから,という面もありそうです。それは,「Spurious Correlations」というページです。見た人も多いのではないでしょうか。
この中で一番よく知られているグラフは,「プールでの溺死者数とニコラス・ケイジの映画出演本数との間の相関係数」で,相関係数は「0.67」となかなか高い値を示します(旧バージョンのサイトに相関係数が記載されています)。他にも「こんなこととあんなことにこんなに高い相関があるの?」という事例がたくさん掲載されています。
このサイトは本としても出版されています。グラフと相関係数だけが載っている,小さな絵本のような本ですが。
疑似相関でも関連はある
たまに,疑似相関を「ニセモノの相関」だというふうに理解しているように読める書き込みを目にすることもあります。「本当はそこには関連がないはずなのに,たまたま相関が観察されたこと」を指して「疑似相関」と呼ぶようなケースです。先ほどの「Spurious Correlations」のwebページを見ていくと,そのように解釈してしまってもしょうがない面があるかもしれません。
しかし,疑似相関とはそういうものではありません。疑似相関は「本当は関連がないこと」というわけではないのです。世の中には偶然に関連が生じることはたくさんありますが,その偶然の相関のことを疑似相関というわけではありません。
疑似相関であっても,関連はちゃんと観察されます。そこは押さえておいてもらいたいポイントです。疑似相関は「見せかけの相関」などと書かれることもありますが,観察される現象としては,しっかりと関連が見られるのです。そして,統計的にも有意な相関係数が得られます。ですから,相関係数だけを見ていてもそれが疑似相関なのかどうかはわかりません。
疑似相関についてのポイントは,相関関係と因果関係について考えることにあります。
相関関係と因果関係
世の中にある関連情報の大部分は,因果関係ではありません。それよりも,私たちが関連を見た時に「因果関係があるのでは」と考えてしまうところに問題があるように思います。
ある事柄Aと別の事柄Bとの間に関連がある時,そこにはいくつかの可能性があります。
1. 因果関係: A → B
2. 因果関係: B → A
3. 因果関係: A → B かつ B → A
4. その他の要因Xを媒介: A → X → B
5. その他の要因Xが共通要因: X → A かつX → B
6. Aと関連する要因XがBに影響: A ≒ X → B
7. Bと関連する要因XがAに影響: B ≒ X → A
8. 上記のうち複数が同時に生じる
9. 偶然関連が生じただけ
関連が見られる時には,単純に「AがBの原因なのではないか」「BがAの原因なのではないか」という可能性のほかに,さまざまな可能性がありえるのです。
ちなみに,上の中でどれが疑似相関になるのか,わかりますか?
「9.じゃないの?」と思うでしょうか。「見せかけの相関」といわれるくらいですから,偶然相関が生じただけのことを疑似相関と言うのではないかと考えてもおかしくはないように思います。
疑似相関
しかし,9.だけが疑似相関ではないのです。この「偶然の関連」というのを考えることはなかなかやっかいで,実は何らかのプロセスがあるのにそれが不明なときにも「偶然」と解釈される可能性があります。偶然の関連だと考える中にも,何か重要なプロセスが眠っている可能性はあって,そこから重要な研究が生まれる可能性はあります。もちろん,そこには何も眠っていないこともあります。これは何か研究を行う際に,常に心に留めておくべきことです。
さて疑似相関のいちばん明確な説明は,
「5. その他の要因Xが共通要因: X → A かつX → B」
です。
このパターンのよくある例は,「アイスクリームの売り上げと水死者数との間に関連がある」というものです。数年間の毎月の統計をとっていくと,アイスクリームの売り上げが多くなるほど水死者数が増加する傾向が見られるのです。ということは,アイスクリームの販売を抑制した方が死者が減るのでしょうか。
もちろん,そんな因果関係があるようには思えません。しかし,実際にそのような関連は生じます。
なぜかというと,気温という共通要因(X)があり,
気温(X) → アイスクリームの売り上げ(A)
気温(X) → 水死者数(B)
という関係になるからです。気温が上がることで,アイスクリームの売り上げも水死者数も増加する(海や川に行く人が増えますので)というわけです。これが,先ほどの5番(その他の要因Xが共通要因: X → A かつX → B)の一例です。
他には,ある小学校の全児童に同じ漢字のテストをして長距離走のタイムを測定すると,タイムが良い子の方が漢字のテストが良いという関連が見られるという例もよく知られています。
もちろんこれも直接の因果関係があるとは考えにくい例です。でも,間違えて「漢字を覚えるために毎日校庭を走りましょう」とか「来たるマラソン大会に備えて漢字の書き取り練習をしましよう」となりかねません......。
実際には,
学年(X) → 漢字のテスト得点(A)
学年(X) → 長距離走のタイム(B)
というように,学年が上がれば漢字の点数も長距離走のタイムも良くなるという疑似相関になっていると考えられるというわけです。
疑似相関はなかなか見つからない
研究をしていて,「これは関連があるといわれているけれども実は疑似相関だ」ということを見つけ出すのはなかなか簡単なことではありません。疑似相関なのにもっともらしいケースというのが,とてもたくさん存在しているからです。また,本当に偶然の関連とか,疑似相関以外のプロセスとか,色々なパターンがありえるからです。
たとえば,次の記事についてどう思いますか?
◎20歳以上の未婚男女1000人を対象に,インターネットで調査を実施しました。
◎じゃがいもが嫌いな人のうち8.3%が「会社経営者・役員」であり,全体では4.4%でした。
◎「じゃがいも」「にんじん」「たまねぎ」「トマト」「きのこ類」「ブロッコリー」のうち,5つか6つが嫌いだと回答した人の48.4%が年収200万円未満でした。
◎嫌いな野菜がない人では,年収200万円未満は31.9%でした。年収が低い人には,野菜が嫌いな人が多いようです。
◎誰とも付き合ったことのない人の割合はじゃがいも好きで23.5%,じゃがいも嫌いで14.7%でした。10人以上と付き合ったことがある人は,じゃがいも好きで11.8%,じゃがいも嫌いで23.5%でした。
◎トマトが嫌いな人の半数近い41.2%が交際人数0人でした。
さて,ここにどんな「疑似相関」が見つかると思いますか?
たとえば,野菜というのはかさの割に値段が高いので,年収の少ない人は野菜自体をあまり食べない傾向があるかもしれません。でもこれは因果関係が逆(年収→野菜)ということで,疑似相関ではありませんね。
疑似相関だと言うためには,別の共通する原因が必要です。
ではたとえば,あまりきっちりと計画通り,真面目にすることが苦手な性格が,年収の低さと野菜嫌いの両方に影響していることを考えると,それは「性格が年収の低さにも野菜嫌いにも影響している」と考えることができますので疑似相関になります。もちろん,そこには大した影響力は期待できませんし,検証できるのかどうかもよくわかりませんね……。
「誰ともつき合ったことがない人はジャガイモ好き」というのはどうですか?たくさんつき合う人はジャガイモ嫌い……どういう因果関係が想定できるでしょう。たとえば,過保護に育てられた人はジャガイモが好きな傾向にあって,かつ異性に対しても積極的にならないとか?あるいは,ジャガイモが好きになる遺伝子が異性に積極的になれない傾向にも関与する?たしかにそういうことが明らかになれば,ジャガイモ好きと異性に消極的なことは疑似相関ですが......果たしてそういった共通原因は見つかるでしょうか。
まずは,その関連が偶然ではないという証拠が欲しいところです。その上で,ではその関連がどうして生じたのかについて,プロセスや原因を考えていきたいですね。関連を報告するのは難しいことではないのですが,そこからが長い道のりになりそうです。
そして重要なことは,「どうやったらそれを確かめることができるのだろうか」と考えることです。ぜひ,考えてみてください。
ここから先は
日々是好日・心理学ノート
【最初の月は無料です】毎日更新予定の有料記事を全て読むことができます。このマガジン購入者を対象に順次,過去の有料記事を読むことができるよう…
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?