見出し画像

考え方から始める統計学~境界値を利用する

※全文無料です。

前回
https://note.com/kurosaki_kurozu/n/n8a6646c2bcef

バックナンバー
https://note.com/kurosaki_kurozu/m/m3dfd9e022558

前回のまとめ

前回は2008年のアメリカ大統領選挙でオバマ陣営が実施したRCT(ABテスト)を紹介しました。
この事例では、デザイナーが本命だと考えたwebサイトのレイアウトが、支持者を増やす目的においては実は最良ではなかったという結果が証明されました

このようにwebサイトの来訪者に対して、ランダムにページのレイアウトを変更するという実験方法を実施することは、労力的にも倫理的にもさほど大きな障害はありません。
しかし、電力価格や医療費などのインフラに関わる価格を、政府や企業が最適化することを考えたときはどうでしょうか。
世帯や人によってその価格を変更してみるという実験をおこなうのが難しいことは容易に想像できると思います。

今回の記事では、そのようなRCTを実施するのが難しい場合に利用される手法として、DID(差分の差分法)RDD(回帰不連続デザイン)の2つを紹介します。

DID(差分の差分法)

RCTを行う一番の目的は、調査対象に依存するデータの偏り(バイアス)を取り除くことで、調査対象におこなう介入の効果を正しく検証することでした。
これから紹介する2つの手法も、バイアスを取り除くことを目的としています。

さて、RCTにおいては介入をおこなったグループと介入をおこなわなかったグループの2つを比較することが必要ですから、介入をおこなわなかったグループのデータが得られなければ、RCTを使うことはできません
このような状況になるのは、法律の変更など全ての調査対象に対して同じ介入をおこなう必要があるときです。

例えば、ある県の条例を変更するときに、その効果を検証したいとしましょう。
一見、他の県を介入をおこなわなかったグループとして捉えることでRCTを適用できるように思えますが、実際には地域差によるバイアスが存在するため、正しい検証を行うためにはこれを取り除かなければなりません。

DID(差分の差分法)では、介入をおこなった時間的に前後のデータを、介入をおこなったグループと介入をおこなわなかったグループについてそれぞれ用意します。
そして、介入をおこなった時間的に前後のデータについて、グループそれぞれで差分を取ります
さらに、差分を取った2つのグループ間での差分を取ることで、最終的なデータを得ます。
差分の差分法の名前は、このように2段階で差分を取ることに由来します。
グループそれぞれで差分を取ることで、グループごとに存在するバイアスをある程度消去できるという発想ですね。

RDD(回帰不連続デザイン)

RDD(回帰不連続デザイン)が利用できるのは、データがあるところを境に不連続になっているときです。
例えば、成人を境にお酒が飲めるようになるのは、それ以前は0だったものが成人を境に1になるのですから、不連続であると言えます。
70歳で高齢者受給者が届いた場合には、その時点で医療費が3割負担から2割負担になりますから、これも不連続であると言えます。

RDDにおいて重要なのは、仮に介入がなかったとした場合、境界値の前後で変化のしかたが変わらないという仮定をおこなうことです。
それが実際には境界値前後でデータになんらかの変化が起こっているとき、先ほどの例で言えば19歳11か月と20歳0か月を比較して、アルコール中毒の患者数が急激に増加していたり、69歳11か月と70歳0か月で医療機関の利用頻度が急激に増加していた場合、それは境界値前後における変化がそれの原因になっていると考えることができます。

基本的な考え方はこれでよいのですが、実際には複数の値があるところを境に不連続になっている可能性があります
そのため、RDDを利用するためには、不連続になっている値のそれぞれが、他の値に影響を与えていないか、あるいはどの程度影響を与えているかを明確にしておく必要があります。

最後に

今回はDID(差分の差分法)RDD(回帰不連続デザイン)という2つの手法を紹介しました。
数学的に厳密な議論は後に回すことにしますが、今はRCTも含めて手法に関するイメージだけつかんでいただけたらと思います。

ここまで記事を読んでいただき、ありがとうございました。これより下に本文はありませんが、記事が良かったと思ったらご支援をお願いいたします。

ここから先は

0字

¥ 100

この記事が気に入ったらサポートをしてみませんか?