因果推論の科学 「なぜ?」の問いにどう答えるか
「因果推論の科学」 なぜ?の問いにどう答えるか(ジューディア・パール, ダナ・マッケンジー 著)
因果推論は新しい科学
原因と結果に関わる問いに直面したときに過去の科学者はどのように立ち向かってきたか。因果推論の能力は元来、人間に備わっている。人類はあることが原因で別のことが起きる現象に気づいていた(前者を操作すれば、後者に変化が起きる)
・この治療は特定の病気にどの程度有効か
・新しい税制のおかげで売上が上がったのか、別の広告が影響したのかなど
→ 因果的な問いは非科学的なものとしてタブーとなっていた。
統計学:相関関係は因果関係ではない
鶏の鳴き声が日の出と強い相関があるが、鶏が鳴いたことで朝日が登る訳では無い。統計学はデータをどう集約するかに集中し解釈については疎い。例外はパス解析(1920年代に考案)。
統計学者が因果関係を敬遠した背景の一つとして、因果関係は主観的な関与(個人的な理解に基づくもの)が必要とされるため。
反事実的推論の重要性
反事実は因果推論の特有の表現。「もし〜なら(もし〜をしていない場合は)」を扱うことで、非科学的に捉えられることもあった。
鶏が朝になかなった場合、太陽はいつもと同じように登っただろうと推測できる。私たちは事実(現代でいうデータ)だけで成り立っているわけではない。事実と事実に複雑な因果関係が存在している。
因果関係を理解する3段の認知能力
3つのジャンクション
因果関係の流れをパターン化して観察する。
A→B→C(チェーン):火災報知器の例では、火→煙→報知機
A←B→C(フォーク、分岐):Bは共通原因。交絡因子と呼ばれる。
靴のサイズ←子供の年齢→読解力A→B←C(コライダー、合流):俳優の例では、才能→名声←美貌
交絡因子
交絡因子は隠れた第3の変数として作用する。既知の場合もあれば、存在が疑われるだけの場合もある。
→ランダム化比較試験によって、交絡を解消する。変数をランダム化すれば、他のあらゆる変数からの影響を断ち切ることができる。ただし人為的介入ができない状況もあり得る(喫煙の実験において、ランダムに選んだ人に喫煙を10年間続けてもらうことはできない)
(バックドア基準):交絡の操作試験。因果ダイアグラム上で、因果経路はブロックせずに、非因果経路をブロックする。
喫煙は肺がんの原因なのか
一生涯、喫煙を続けても肺がんにならない人もいる。逆に吸わない人が肺がんになる人もいる。遺伝的素因が影響する場合もある。ランダム化比較実験も実施できない。
パラドックス
・男性にも女性にも効かないが人間には効く薬
・野球において、3年間のジーターの打率はジャスティスを上回ったが各年でみると全てジーターが下回っていた。なぜそのようなデータがでたのか。
・運動量とコレステロール値の関係
全年齢層(右グラフ)をまとめて見ると悪い効果(右肩あがり)に見えるが、年齢層別(左グラフ)にすると運動はコレステロール値を下げる良い効果があるように分かる
年齢が運動量とコレステロール値の両方にとって交絡因子になっていると考えられる。年齢について考慮をして結論をくだすべきである。(すなわち運動量が増えるとコレステロール値は下がる)
総合効果
科学者は「なぜ」という原因を探るのに媒介という言葉を使う。(例:薬Aの心臓発作に対する効果は、血圧への効果を媒介として働く。)
薬A → 血圧 → 心臓発作
・総合効果
・直接効果(媒介因子を介さない効果)
・間接効果(媒介因子を介す効果)
なぜ因果関係が難しいのか
介入の効果を見積もることが難しいから。(気候変動は様々な介入の結果によるもの)。人間は自然に介入の知識を積み上げている。