見出し画像

【解答編】疑似相関って何なん?

解答編?出題編ってあったっけ?と思われるかもしれません。そうです。出題したつもりはありませんでした。が、私が先日記載したこの記事、事務局内でひじょーに評判が悪いのです(泣)。

@ハラマルさん「分かりづらいです」。@ハラマル君「余計に分からなくなったよ」。@ハラマルさん「スキが少ないですね」。というメンション祭り。(スキが少ないのはいつものことなのにと思いながら、)ということで、皆さんにスッキリ分かっていただけるよう、再チャレンジしてみます。

リベンジ・スタート

改めまして。デジテック for YAMAGUCHI運営事務局のハラマルです。デジテック・パートナーになっていただいた方の中にも、私と同様に、この機会に勉強を始めてみようという初心者の方も多くいらっしゃいますので、「疑似相関」について分かりやすい説明を頑張ってみます。よっぽど、上の記事を削除しようかとも思いましたが、それもアンフェアな気がします。失敗も晒したままにしておくことにします。どのくらい分かりやすくなったか比較してみてください。

さて、「疑似相関」とは、ある2つのデータがあったときに、因果関係がない(又は間接的)であるのに、直接的な要因となっていると間違って認識してしまったものです。

私が、「みらスタでビールを飲みながらレノファ観戦するとき、飲むビールの量とレノファの勝率が相関関係にある」と言い出したら、荒唐無稽過ぎて、全く相手にされないでしょう。当然です。

例①:偶然の一致

ここで一つのシーン(例①)を想定してみます。いやいや、そんなことないでしょ、一応調べてみる?と記録を取ってみたら、私が試合中にビールを1杯飲んだとき、レノファの得点は1点でした。2杯飲んだ試合では2点取りました。3杯飲んだ試合では3点でした。ということが続いたとします。そうです、偶然の一致です。グラフにしてみると、ビール量と得点数が正比例します。けれど、当然のことながら、たまたま一致しているだけで、「観客の一人が飲むビールの量」と「得点数」は、観察すれば因果関係がないことが明白です。これが「疑似相関」です。きっと、範囲を広げてもっとたくさんの試合を観察すると、相関していない試合の方が多いことが分かり、関係ないじゃん!ということが証明され、安心するはずです。

これは分かりやすい例なので、疑似相関であることは明白だったのですが、偶然であっても、あまりにも一致が続くと、本当に因果関係がないか疑ってしまいませんか?また、因果関係があると思い込んでしまうような場合もあります。例えば、「ゲン担ぎ」もこれに似た構造ではないでしょうか?「左足からグラウンドに入る」とか「同じ服装で会場に向かう」とか、それで良い結果が続くと、なかなかそのゲン担ぎを辞めることができないのではないでしょうか?こうした、観測者側の心情も、疑似相関、つまり誤った認識が発生してしまう理由にもなります。

因果関係があるかないかの議論を複雑にしてみましょう。今度は「ルーティン」の場合はどうでしょうか?ルーティンとは、決まった動作を繰り返すことで、例えば体のバランスを調整したり、練習中と同じ集中又はリラックス状態にすることなどを期待しています。多くのスポーツ選手が取り入れていますよね。この「ルーティンを行うこと」と「成績」には因果関係がありそうですね。ところが、「私のルーティンは、左足からグラウンドに入ることだ。そうすることでリラックス状態を生み出し、良い結果が出せている。」という選手がいたらどうでしょう?「左足からグラウンドに入る」という行為が、さっきはゲン担ぎ(因果関係がない)と思っていたのに、この選手の場合には因果関係があるのでしょうか?ちょっとこの条件だけでは判断できないですよね。このように、簡単な例だと因果関係の有無は分かりやすいのですが、分かりにくかったり間違えやすいものが現実にはたくさんあります。

まとめると、例①の場合、ある一定の範囲であれば偶然にもデータが相関することはありますが、よく調べてみると、因果関係がなかったり、範囲を広げると相関していないことが分かります。これが「疑似相関」ですね。そして、偶然なのか、本当に因果関係があるのかは、よく観察してみる必要があるし、なかなか簡単には判断できない部分もあるということですね。

例②:共通の別の要因

次に、2つ目のシーン(例②)を想定してみます。「レノファのサッカーは、パスを回して相手を走らせるので、夏の試合では相手がバテてしまって、レノファが優位に試合を進められている」とします。一方、私の飲むビールの量は、夏に多くなります。ここで、私が飲むビールの量とレノファの勝率をグラフにすると、またしても正比例しているかもしれません!このグラフを見て、「ビールを飲むこと」が「勝率が上がっている」原因だと勘違いしてしまう人がいるかもしれません。これも「疑似相関」ですね。

この例②の場合、「ビールの消費量」と「レノファの勝率」は、共に「気温」という要因に左右されています。正しくグラフを作るとすると、「気温とビール消費量」というグラフと、「気温とレノファの勝率」という二つのグラフを作るべきです。この共通の要因である「気温」に気づかず、「ビール消費量とレノファ勝率」のグラフを作った場合にも、相関関係があるように見えてしまいます。なので誤った認識(疑似相関)が生まれてしまうということですね。

この例②の良いところは、隠れた要因である「気温」に気づき正しく分析するのであれば、気温という共通の軸を使って、一見何の関連性もない「ビール消費量」と「レノファ勝率」を予測できることです。気温が高い試合ではビールをたくさん飲む。また、気温が高い試合ではレノファの勝率が良い。となると、「ビールをたくさん飲む試合は、(気温が高いので)レノファが勝つ」ということですね。

まとめると、例②の場合、共通の別の要因がある場合、それを見落としても相関関係があるように見えてしまう。これも「疑似相関」です。間に隠れている共通の要因がないのかよく注意しましょうということですね。

まとめ

そもそも、なぜ疑似相関の話をしたんでしたっけ?そうそう、新聞記事がきっかけではあったのですが。データを分析するときには、因果関係をしっかり確認しないと、一見、関係してそうでもそうでない場合があるよ、というのが一般的な注意事項ですね。当然のことですが、レノファの勝率を算出するのに、私が飲むビールの量を分析しても何の役にも立ちません。

ですが、別の方向から考えると、因果関係ってそう簡単に分かるものではなく、単にある/なしではなく、関係性の強弱もあります。そんなことを考えると、「レノファの勝率」なんてものは要因が無限にもあるように思えます。そこが逆にデータを分析するおもしろさではないでしょうか。新たな因果関係や、思っていたよりこうなんだ、という発見がデータを分析する魅力なんではないでしょうか。冷静に読み解くことの注意だけではなく、こうした面白さも一緒に新聞記事にしてほしいなぁというのが、私の思いです。

ここまでたどり着くのに記事2つも要してすみません。また反省の念を私の丸いお腹に詰め込んでおきます。