交絡

結果の原因を正しく知るために

先日このような記事を読ませていただきました。

「奨学金返せず自己破産15000人」のニュースを隅々まで掘ってみよう

僕自身も奨学金を多少利用しているので、この記事の自己破産15000人というのは正直驚いており、またこの分析は統計学を勉強している身としても面白いトピックだなと思い、取り上げさせていただきました。

このツイートのように、記事内で著者は

保証期間に保証料を払う機関保証タイプは奨学金にからむ自己破産は16年度までの5年間で延べ1万5338人。内訳は本人が8108人(うち保証機関分が475人)で、連帯保証人と保証人が計7230人だった。と、あるとおり、明らかに機関保証の方が自己破産率が低い。たったの6%弱です。これはすなわち機関保証の方が確実に自己破産に至らないということです。

と述べており、その考察として

月16000円が払えないで滞納して自己破産ってそもそもどっかおかしくないか。
病気ならまだしも、ほかに遊びに金使っていたり、浪費癖があったり、金も無いのに仮想通貨買ったりFXやったりマルチにはまったり高額セミナーに通ったり、返済以外のほかに金使って首が回らなくなってんじゃないの。で、滞納がひどくなってついには「一括返済」を求められて自己破産と。

と続けています。これは考察として面白いなと思っていて、奨学金自体は返し方が「減額返済」や「返還猶予」などの制度があり、月16000円が払えないというのは僕もあり得ないんじゃないだろうかと考えています。

しかし、その後のまとめの

奨学金は機関保証のみにする

というのは、分析のまとめとしてはおかしいんじゃないかなと思います。

これは統計学的に言うところの、「交絡因子」があるだろうというのが理由です。

例えば野球の場合はこんな感じ


ピッチャーの成績として、勝率が重要視されていて、防御率が良いピッチャーは勝率もよいというのがあります。

しかしこれは必ずしも因果関係があるわけではなくて、もし防御率が良いピッチャーは勝率が良いという因果関係を見つけたければ、自チームの守備力や相手チームの打撃力のような防御率と勝率以外の条件・結果をすべて排除しないといけません。

上の奨学金の話でも、機関保証の人の方が自己破産しないというのは確かかもしれませんが、だからと言って奨学金を借りる際の保証人をすべて機関保証にすれば自己破産する人の数が減るという考察はできないんじゃないかなと思います。


ではこのような「交絡因子」を排除するにはどうすれば良いのでしょうか。

1つは上で少し述べたように、原因と結果として知りたいもの以外のすべての要因を洗い出して、条件を同じにする方法です。

しかし、これは実際には不可能なのは、以前の記事

でも述べた通りです。したがって、2つ目の方法が、統計学の世界では主流だと言えます。それが「ランダム化」です。

ランダム化というのは、データをかき混ぜるということで、データを無作為に取得する方法です。データを偏らせない、という意味があります。

例えば、電話のみでとったアンケートは電話をもっている人にしかアンケートを取ることができませんし、ツイッターのアンケートもツイッターをやっている人からしかアンケートを取っていないという点で、偏っています。

このように、因果関係を導くことは非常に難しく、何らかの理由でランダム化できない場合は、より困難を極めます。

タバコが体に悪いというのがなかなか認められなかったのは、交絡因子が排除できていないという理由もあるのです。


交絡因子を排除して因果関係を導くことは難しいですが、これができる方法を考えるのも面白いなと思います。


Twitterもやっています。noteの更新とかも呟いているのでフォローしてね(*^^)v


ではまた!

最後まで読んでいただきありがとうございました!サポートしてくれると非常に嬉しく、noteを書くモチベーションになります。