「原因と結果」の経済学を読んで
データ分析をするにあたり、分析手法以前に正しく分析できているかが重要だと考えている。適切な分析を行うために以下の本を読んでみた。
実社会のことについての考察が多いのでかなり読みやすく、データの見方を考えさせられた。
以下はメモ
因果関係と相関関係を混同してしまうと、誤った判断のもとになってしまう。
2つの変数の関係が本当に因果関係なのか、これらを明らかにするために必要な考え方が「因果推論」である。
2つ変数の関係が因果関係なのか相関関係なのかを確認するために以下の3つの点に注意する必要がある。
これらを証明するためには「反事実」を比較することである。反事実は実際起こらなかった場合、どうなったかを考えることである。反事実を正しく想像できないと根拠のない通説に騙される。
「統計的に有意」とは
「介入群と大将軍の差は統計的に有意ではなかった」というのは、その差が偶然による誤差の範囲で説明できてしまうということである。
統計学的には「統計的に有意」と言い、「統計的に有意」とは、「観察された差が偶然の産物である確率」が5%以下であることであり、2つのグループの差は誤差や偶然では説明できない「意味のある差」だということである。
複数の研究を見るとき
複数の研究を見るときには、「メタアナリシス」という。「メタアナリシス」とは、複数の研究結果を取りまとめて、全体としてどのような関係があるかを検証する方法である。
以下は実験に関するメモ。詳細は本を読んで欲しい。
・医師の性別と患者の死亡率
担当する患者の性質の存在
疑似実験
前期比較デザイン
前期比較デザインとは、単純に介入をする前後で結果を比較する分析手法である。しかし、「前後比較デザイン」は原則として使えない。1つ目は時間と共に起こる自然な変化(「トレンド」)の影響を考慮することができない。2つ目は「平均への回帰」である。「平均への回帰」とは、データの収集を繰り返していると、たまたま極端な値を取った後は、徐々にいつもの水準に近づいていくという統計的な現象である。
しかし、反事実ならば、前期比較は有効であるが稀である。
・差の差分析
前期比較デザインを改良したものである。当該分析が有効であるためには「介入群と大将軍において、広告を出す前の売上のトレンドが並行であること」と「介入が行われている間に、売上に影響をお与えるような「変化」が起きていない」ことが必要である。
保育所定員率と母親の就業率の間には因果関係を見出すことができない。保育所の定員を増やせば就業する母親が増えると考えたが、ベビーシッターなどの私的サービスを利用していた母親が公的サービスに変更するだけだった。
・操作変数法
操作変数法とは、「結果には直接影響を与えないが、原因に影響を与えることで間接的に結果に影響を与える」ような第3の変数をのことを指す。操作変数法は①操作変数は原因に影響するが、結果には直接影響しないこと、②操作変数と結果の両方に影響するような「第4の変数」が存在してはならない。
広告を出している店舗と出していない店舗では、広告以外に広告を出している店長などのやる気なども異なっている可能性がある。
・回帰不連続デザイン
49人の店舗は広告を出さないが、50人の店舗は広告を出さない。この差であれば売上はほとんど変わらないと考えられ、広告の効果を測ることができるのではないか。
回帰不連続デザインを用いて因果効果を推定するために特に重要なのは、連続変数のカットオフ値の周辺で、結果に影響を与えるような他のイベントが起きていないこと。
・マッチング法
結果に影響を与えるような共変量を用いて、大将軍の中から、介入軍によく似たサンプルをマッチさせて比較する方法。複数の共変量がある場合は、その共変量をまとめて1つの得点にしたものを用いてマッチさせることもある(プロペンシティ・スコア・マッチング=「介入郡に割り付けられる確率」)。マッチングが成り立つための条件は、結果に影響を与えるような共変量が全て観察可能であることである。
広告を出している30店舗と広告を出してない店舗30店舗を比較する。しかし広告を出す裁量は店長であり、広告をだしている店長は総じて勤続年数が長く年齢が高い。広告を出していない店舗の店長は若い。この「年齢」にあたる変数のことを「共変量」という。その他、その地域に住んでいる人数、地域の平均所得も異なるかもしれない。それも「共変量」となる。
・回帰分析
ランダム化比較試験や疑似実験のような手法を利用できないことも多い。そのような時には「回帰分析」を使う。
回帰分析には①単回帰分析と②重回帰分析の2種類がある。①単回帰分析は、2つの変数の関係を評価する方法である。②重回帰分析は交絡因子が存在している場合、その影響を取り除いた上で原因と結果の関係を評価する方法である。
回帰分析とは点のあいだを通る「最適な線」を引く方法である。最適な線を引くことができれば、その線の「傾き」は、原因が1単位増えた時に結果がどれくらい変化するかを表す。この最適な線の傾きこそが原因の結果に対する「因果効果」である。
内的妥当性と外的妥当性
妥当性と限界
内的妥当性:2つの変数のあいだに因果関係があることの確らしさを意味する。
ランダム化比較試験によりアメリカ人を対象にしており、因果関係が証明されたこと
外的妥当性:研究の対象とは異なる集団に、その介入を行った場合、同じ結果が再現される程度
上記アメリカ人に対する結果が日本人にも当てはまること
ランダム化比較試験はエビデンスレベルの高い手法であるが、限界もある
①費用がかかる。
②「外的妥当性」が得られるかはわからない。
③倫理的な問題から実施できないケースもある
④「ランダムに割り付ける」ことができず、「ランダム化の失敗」が起こる
⑤ランダム化比較試験で得られた結果より実社会に」拡張して導入した効果の方が小さくなってしまう
この記事が気に入ったらサポートをしてみませんか?