見出し画像

因果と相関

ちょっと前に、某abemaでなんとかという経済アナリストが自説をぶち上げ、ネット上で「こいつは因果と相関の違いがわかっていない」と批判されていました。

「因果と相関」はSNSで中途半端なデータ談義をしたときに必ず指摘される事項ですが、批判ツイートを見ていると、みんながみんな必ずしも「因果とは何か」ということをちゃんと把握していないのではないか、と思いました。

私は職業データアナリストですし、大学院でも「因果推論」の勉強はしましたので、それなりに「因果と相関」の違いについては知っているつもりですが、実はこのテーマはちょっと考え出すとかなりややこしいテーマでもあったりします。

そこで今回は私の愛用書である「岩波データサイエンス vol3 因果推論」を用いて、「因果と相関」の違いをおさらいしてみたいと思います。ちなみに、以下で述べるのは「因果推論」という数学の枠組みにおける因果(関係)の定義です。

まず相関関係ですが、ある変数の値が大きいときに別の変数の値も大きい(もしくは小さい)とすると、その2変数間には「相関関係がある」と言います。ちなみに相関関係があるというとき、大抵の人は直線上の関係を思い浮かべますが、必ずしも直線上の関係である必要はなく、2次関数のようなU字型でも3次関数のようなぐねぐねした曲線でも相関関係があるといいます。

一方で因果関係があるとは、一方の値を「変化させたときに」もう一方の値も変化するとき、双方に因果関係があるといいます。

この定義に基づけば、2つの変数間に因果関係があれば、その2変数間には相関関係も存在します。一方で、相関関係があるからといって、因果関係があるとは限りません。

相関関係は存在するが因果関係が存在しない例を考えてみましょう。例えば、アイスクリームの売り上げとプールや海での水死事故件数は比例すると言われています。例えばアイスの売り上げの多い月は、水難事故も多い傾向にあり、アイスの売り上げの少ない月は、水難事故も少ない傾向にあります。なぜでしょうか。

アイスを食べると体が冷え、その状態で水に浸かると思ったように泳げず、水難事故に巻き込まれるからでしょうか。何となくそれっぽく聞こえます。こんな感じのそれっぽい仮説にデータまであれば説得されてしまいそうです。

しかしそうではありません。単純に気温が高ければアイスも売れるし、みんなプールや海に行くからです。つまり、「高い気温」がアイスの売り上げを増やす一方で、同じく「高い気温」という変数が「水難事故」という変数を正の方向に動かしているので、アイスの売り上げと水難事故との間に相関関係が生じるのです。

とすると、水難事故防止を目的としてアイス販売に制限をかける事にはなんの意味もないということがわかるかと思います。このように、相関関係に基づいて判断を下すと、たいてい何の結果も得られないか、ひどい場合は有害な結果を得ることもあります。

さて、前掲の「岩波データサイエンス vol3 因果推論」では、Hill(1965)が提示した因果関係判定のガイドラインが掲載されています。それすなわち、

1. Aの生起とBの生起の間に強い相関関係がある。
2. 相関関係の大きさは様々な状況で、対象や実証に利用する手法が違っても一致している。
3. Bと「A以外に原因として想定される変数」の相関は高くない。またAと「B以外の結果変数」の相関も高くない。
4. AはBに時間的に先行する。
5. 原因となる変数Aの値が大きくなると、単調に結果となる変数Bの値も大きくなる。
6. AがBの原因となっているという因果関係が各分野の知見に基づいてもっともらしい。
7. これまでの先行研究や知見と守備一貫している。
8. 実験研究による証拠がある。
9. 既に確立している別の因果関係と類似した関係・構造を有している。

岩波データサイエンス vol3 因果推論、一部筆者が文言修正

とあります。これを眺めてみると、(件の経済アナリストが主張したような)「政府支出と経済成長の間に相関関係が見られる」というデータに基づいて「政府支出を増やせば経済成長する」と主張するには、3,4,5,6,7,8あたりでハードルにぶつかりそうな気がしてきます。

まず3は容易に複数思いつきます。それこそ民間消費(Y = C + I + G + (X - M)のCの部分)の増加はGDPの増加に強く寄与しそうです。4もまた、番組内で示されたデータの内容的にクリアするのは厳しそうです。つまり、「政府支出と経済成長の増減が同時もしくは経済成長が先行し政府支出が遅行」というシチュエーションです。これも自然に考えられます(経済が成長し始めたら公共投資が必要になりますから)。5についてですが、これは例えば日本において、政府支出という変数をあれこれいじった結果、それと比例するようにGDPも変動した、というデータが必要です。6,7,8のクリアは計量経済学的観点から見ておそらく絶望的です。

このように、データから因果関係を導き出すのはかなりハードルの高い作業だったりします。また、上掲のような数式を持ち出して「Gを増やせばYが増える」というためにはC、I、X、MがGの変動に対して不変である必要があります。Gを増やせばどうなるのかの分析はIS-LM分析という(経済学部であれば1年次に学習するような)項目があるので、今回は説明を省きます。


職業柄データ分析には常に携わっていますし、相関と因果については分析時もプレゼン時もかなり配慮しています。しかし世間的にはあまりこの2つの区別がついていないようですし、意識的か無意識的かはわかりませんが相関データに基づいて因果の議論をしている人はたくさんいるようです。

そのような人が少しでも減ることを祈りつつ、私はむしろあまり因果推論に強く拘らなくてもいいのかななんて悩んだりもしています。
今回は以上です。


この記事が気に入ったらサポートをしてみませんか?