見出し画像

考え方から始める統計学~因果関係を推測する①

※全文無料です。

バックナンバー
https://note.com/kurosaki_kurozu/m/m3dfd9e022558

はじめに

何かを学ぶにあたって、それがいったい何に使えるかという実益を重視するのは自然なことです。
「統計学が役に立つ」という話は聞いても、いざ本を読んでみると数式が多く、それが何の役に立つのかというところまで行きつかない人も多いことでしょう。
そこで、『考え方から始める統計学』と題して、実際の事例からそこに使われる手法を見ていくことで、実際に役に立った統計学の考え方を眺めていこうと思います。

このテキストの読者として想定しているのは、例えば「仕事や研究で統計を利用したいが、分野が広大すぎて何から手をつけていいかわからないという人」や、「統計学の理論はなんとなく把握しているが、それの使い方をいまいち掴めていない人」です。
もちろん、それに加えて統計学をこれから勉強したい人の入門テキストとしても使っていただけるように、できるだけ平易な表現を心掛けていきたいと思います。

では、最初のテーマである「因果関係を推測する」ということについて話していきましょう。

関係があるということ

一口に「関係がある」と言っても、両者が密接に結びついて変化しているような「関係」もあれば、例えば軽く立ち話をした程度の、ふんわりとした「関係」もあります。
統計学において「関係がある」という情報は重要ですが、密接なものからふんわりとしたものまでまとめて「関係がある」とくくってしまうと、何の情報も得られなくなってしまいます。

さて、統計学における最も重要な「関係」に「因果関係」というものがあります。
これは読んでの通り原因結果という「関係」です。
一方で、「相関関係」というものもあります。
これは片方の変化ともう片方の変化が、条件を変えると同じように起こるという「関係」です。
しかし、この「相関関係」はあくまでも同じように起こるということを言っているだけであって、「因果関係」を直接与えてくれるわけではありません

原因と結果

例えば、「高齢者が増えるとガン患者が増える」という関係があったとしましょう。
これは高齢者が増えるという原因の結果としてガン患者が増えるという因果関係です。
一方で相関関係という概念は「高齢者が増えるとガン患者が増える」と「ガン患者が増えると高齢者が増える」、あるいは「他の第3の要因によってガン患者と高齢者が増えている」という3つの関係を考えます。

この場合は因果関係が比較的明確になっていますが、実際の問題ではもっとわかりづらくなっていることがあります。
いいえ、このように単純に見える問題ですら、「他の第3の要因によってガン患者と高齢者が増えている」という可能性をただちに切り捨てることはできないのです。
その可能性については、「集計した高齢者世代の習慣に、ガンの発生率を引き上げさせるものがあったのかもしれない」など、考えようと思えばいくらでも考えることができてしまいます。

原因を切り分けることの難しさ①~バイアス

原因を切り分けるという作業は、統計学における非常に重要なテーマになっています。
かつてはこれに対しては、原因として考えられる可能性をひたすら列挙していくという手法しか取れませんでした。
しかし近年では、具体例についての話は次回以降に回しますが、因果を推測するための手法は多岐に渡ります。
統計学が文系・理系に関わらず一般に広く利用されるようになった結果、正しい因果関係を見つけ出すことの重要性がマーケティングなどの人々に密接に関わる分野でも認識され始めたためです。

最近のトレンドにビッグデータがありますが、ただ多くのデータを集めただけでは実のところあまり意味がありません。
ビッグデータの中身を何かに応用するためには、結局のところ正しい原因の切り分けが必要になるのです。
データをより多く集めれば、データに含まれるノイズは平均化されて上手く消えてくれるだろうと思う人もいるでしょう。
しかし、サンプルを選び出す時点ですでに偏りが起こっている場合もあり、これを統計的なバイアスと言います。

例えば、国民のうち自動車を持っている人々の集団に含まれるのは、ほとんどが自動車を持てる程度の経済的な余裕がある人々ですから、自動車を持っている集団の所得の平均を調査した場合と、全国民の所得の平均を調査した場合では、自動車を持っている集団の所得の平均の方が高くなるはずです。
このようなサンプルの選び方は、意識せずとも起こることであり、どれだけ多くのデータを集めたとしても、この偏り(バイアス)は消えることはありません。
これがデータを利用することの難しさであり、原因を切り分けることを難しくしている一因でもあります。

最後に

次回の話の内容としては、「原因を切り分けることの難しさ」「原因を切り分けるための手法」の2つを考えています。
後にYouTubeでもこれに関連した動画を投稿する予定です。

ここまで記事を読んでいただき、ありがとうございました。これより下に本文はありませんが、記事が良かったと思ったらご支援をお願いいたします。

ここから先は

0字

¥ 100

この記事が気に入ったらサポートをしてみませんか?