見出し画像

データ分析の力 因果関係に迫る思考法

データ分析の力 因果関係に迫る思考法 (伊藤 公一朗 著)

データ分析は、XがYに影響を与えたかを証明することが多い。
介入グループと比較グループの差を見極める。


因果関係の立証は難しい

「2010年は広告を出稿し、アイスの売上が昨年よりも40%が増加した」
→売上は広告の影響と言えるのか
・(経済状況)消費が上向きだった?
・(気温)2010年は猛暑だった可能性は?
・(逆)猛暑だったので広告を出稿していた

・他の要因を排除できないので、因果関係を証明することが難しい
・因果関係は相関関係とは異なる(相関関係があっても因果関係があると言えない)

介入効果

因果関係は介入効果で定義する
・介入を「受けた場合」と「受けなかった場合」の差を見る
・一個人で比較は困難なため、グループの平均の差をみる(介入グループと比較グループ)

RCT(ランダム化比較試験)
グループ分けを無作為に選ぶ(2つのグループが同等の集団になる)
強み:因果関係を証明できる
弱み:費用や各機関の協力が必要となる(データを作りにいく必要がある)

境界線の両側のデータを使うRDデザイン(自然実験手法)
境界線がある場合に因果関係に迫る。一定の境界によって、非連続的に変化する状況を見つける。境界線付近で他の要素で非連続的に変化していないか確認する。(例:70歳を境界にして保険料が変わる場合)
強み:RCTができない場合でも実施可能
弱み:仮定の立証が困難。他の要因が影響していない証拠を集める必要

階段上の変化を扱う集積分析
RDデザインでは横軸(変数)は操作できないが、集積分析は横軸(変数)が変化できる(例:車について、ある特定の重量によって税金が変わる場合)
強み:階段上の変化は実際の状況で適用できることが多い
弱み:RDと同様に境界線付近のみ有効

パネルデータ分析
境界線がない場合で、複数グループで複数期間のデータが入手できる場合に有効。(例:ある施策が一部の地域だけで実施された場合)
強み:2つのグループの施行前が並行トレンドの場合、因果関係を証明できる
弱み:並行トレンドは多くの場合成立しない。介入と比較グループ両方必要

データ分析の力 因果関係に迫る思考法 伊藤 公一朗 図表より

介入前のもともと2つの動きが並行トレンドである必要。
駆け込み需要の検証

成功の鍵
・データ分析専門家との協力関係を結ぶ
・データへのアクセスを可能な限り開く
・データ自体が間違っている場合、解決できない
・出版バイアスに注意(因果関係がなかった場合、公開しずらい)
・介入に波及効果が存在するか注意
・小規模の効果が大規模と同様の効果が出るのか注意

計量経済学

計量経済学の分野にあたる。
因果関係の次は信頼区間など。

基本は、施策の介入データ群と標準のデータ群の比較。
必要なデータは作りにいく。