見出し画像

『因果推論の科学』はあらゆる科学を横断する因果推論について学べる本だった

ジューディア・パールとダナ・マッケンジーの『因果推論の科学 「なぜ?」の問いにどう答えるか』(文藝春秋、2022年9月12日)を読んだ。予備知識なしに読んだので、かなり驚いた。タイトルから統計学の話かAIに関する話だろうと思っていたのだが、その予想はいい意味で裏切られた。
本書はすべての科学(あるいは思索といってもよいかもしれない)の基礎をなす因果推論に関する科学がテーマであり、統計学やAIはもちろん新薬の開発、経済政策の策定、教育、ロボット工学、銃規制、地球温暖化の問題にまで関わっている。しかも20年前には存在しないも同然の状態だったという。
著者のジューディア・パールは、因果推論の研究で世界をリードしており、AIの分野でベイジアン・ネットワークを発展させた先駆者としても知られている。

因果関係はすべての科学に共通するテーマだと思うが、特に統計学とは関わりが深い。以前、ご紹介した『データ分析読解の技術』(菅原琢、中公新書ラクレ、2022年3月9日)の最初の章が因果関係に当てられていることからもわかるだろう。同様に莫大なデータを利用するAIや最近SNSの分析などで紹介される機会が増えた計算社会学とも関係している。
こうしたデータを扱う科学は客観的と思われがちだが、実際には主観的なプロセスが随所にあり、そのために同じテーマで分析を行っても結果が異なることはよくある。統計や計算社会学では仮説やモデルを設定することが多いが、それは研究者の知見と主観に依存し、そのバイアスは結果を大きく歪めるリスクがある。それにもかかわらず、知見と主観を仮説やモデルにする際および検証の段階での科学的方法論が確立されていない。本書は因果関係をグラフと計算式で表現することにより、表現の曖昧さを排し、複雑な相互の影響をすっきりとわかりやすく計算可能にしている。たとえば計算によって実験を観察に変換することも可能な場合がある
AIが次のステップに進むためにも因果推論が不可欠となる。

●本書のポイント

本書はかなりの分量があるだけでなく、内容が濃いため、とりあえず大事なポイントだけ知りたい方のためにいくつか箇条書きであげてみた。

・我々の知識は事実と因果関係によって成り立っている。したがって因果関係はさまざまな事象の分析および人工知能の基礎になるべきものである。

・因果関係は因果ダイアグラムと記号言語によって表現できる。そして、記号言語は計算式なので、式を整理することでより簡素だったり、実現可能性の高いものへと変換できる。

・因果関係の理解には3つのレベル(因果のはしご)がある。現状の機械学習はまだ1のレベルに留まっている。
 1 関連付け(見る能力) 観察することで関連、規則性を発見する。このレベルでは、朝と鶏の鳴き声を関連づけることはできるが、鶏が鳴くから太陽が昇るわけではないことを説明できない。統計学では相関関係は計算可能な形で定義されているが、因果関係は計算可能な形では定義されていない。
 2 介入(行動する能力) 環境を意図的に変化させた場合に生じる影響の予測。意図的な道具の使用はこれに当たるが、偶然や模倣による道具の使用はこれに当たらない。対照実験、RCT(ランダム化比較試験)などはこれに当たる。
 3 反事実(創造する能力) 実際には存在しないものを想像すること。

・反事実は、存在しないものなのでデータと相性が悪い。存在しないものにはデータもまた存在しないためだ。しかし、反事実を正しく扱うことができれば推定が可能になる。対照実験、RCT(ランダム化比較試験)などを行うことなしに、その結果を予測できる。

・これまでの科学には因果推論を計算可能な形で表現し、適切に扱う方法がなかった。むしろそれを因果関係を扱うことを回避するためにさまざまな方法が用いられていた。そこには因果関係は客観的ではない、という観念があった。データ中心に分析を進めても同様に主観的にならざるを得ないのだ。
データ分析を中心に行っても主観的になるということに関しては巻末の松尾豊の解説でも述べられている。

・因果関係を適切に扱うことができなかかったための問題や悲惨な失敗例が紹介されており、データのみに立脚したレベル1段階の分析の限界が示されている。

・現状のAIや統計では因果関係を適切に扱う機構がなく、「関連」に留まっている。ベイジアン・ネットワークはすべてを確率(変数間の関連の度合い)に還元しており、これでは2や3のレベルには達しない。
しかし、因果推論の科学を適用することで反事実まで扱うことができるようになり、その応用範囲は爆発的に広がる。

・因果分析はデータだけを見てもできない。データ獲得のプロセスやその背景を理解する知見がなければ不可能だ。

上記をもとに、現実の例をあげて因果推論のやり方が紹介されている。あげられている事例は医学、法律、経済学、公衆衛生など多岐におよんでいて、さまざまな分野での応用が可能であることがわかる。そもそも、ほとんどの意志決定は因果関係の把握なしにはできない。意志決定とは、「こうすればこういう結果を期待できる」、「こうしなければ、こういうリスクが顕在化する」といった反事実をもとに行われる。

・本書では因果推論そのものの解説だけではなく、その歴史についても触れている。因果推論はさまざまな学問分野あるいは社会的な施策に関わるので、その歴史もさまざまな分野での経緯を扱っている。パス解析や計量経済学、心理学なども紹介されている。

●本書を読む前に

本書は因果推論についての一般向けあるいは初学者向け解説書として、おすすめできるのは間違いない。ただし、じゃっかん制限もある。関数表現にアレルギーをお持ちの方は、本書をフルに活用していただくのが難しい。本書では因果推論のための計算式が使用され、それがかなり重要な意味合いを持つ事が少なくない(特に後半)。そこを飛ばしても読むべき価値はあると思うが、関数表現を見て思わず本を投げ出してしまわないようにあらかじめ心の準備はしておいた方がよいだろう。
あと、長いのでそこも覚悟が必要。ここ数年で一番読むのに時間がかかった。計算式を自分でも解いていたせいもあるけど。

●感想

本書は知的好奇心を持つ方、なんらかの研究を行っている方、意志決定を行う立場にある方など、すべての人に勧められる読むべき本である。ものごとの判断のもとには因果関係があり、その仕組みを知り、適切に対処できるようになる。
おそらくあらゆる学問を因果ダイアグラムと計算式で表現しなおすことによって全く新しい世界が見えてくるような気がする。
ちなみに本書を読んで気になったことは下記。

・因果関係と対策は異なるので、その関係を表現できないだろうか?

因果関係がわかっても原因をなくすことで結果がなくなるわけではない。怪我の場合は、同じ怪我をしない再発防止にはなるが、怪我している部位の治療は別問題である。もちろん、これは原因の特定と問題への対処という異なる問題なので、目的によって設定する因果関係が異なってくる。
しかし、どうすれば直る(治る)かわからないことも多々あり、そうした問題にも反事実を活用して対処できそうな気がする。対策はまさに反事実をベースとした因果関係なのだろう。
また、原因の特定と問題への対処は全く別問題というわけでもないような気がするので、この両者をつなぐものもありそうだ。

・個人レベルと社会レベルなど問題の定義によって因果関係も対策も異なる

因果関係を考えるにあたって、個人レベルと社会レベルなどミクロ、マクロの視点で異なってくる。たとえば、感染症対策は感染元の特定など原因の特定が対策に結びつくし、感染症に罹患した個人には個人の行動や生活習慣の改善が対策になることもあるし、世界レベルだと国際協力という全く異なる対策が必要ということになる。
同じことは犯罪にも言えて、ミクロレベルでは個別の犯罪者ごとに犯罪にいたる原因があるが、マクロレベルでは当該地域の社会福祉や教育レベルが原因ということもある。
これもまた個々の課題に即して問題の設定を変えるべきなのだと思うが、おもしろいものでマクロになればなるほどさまざまな問題で因果関係が共通してくるように思われる。なにか法則性とかありそうな気がする。

・因子分析、クラスター分析などに因果あるいは仮説としての構造を持ち込めないか?

統計における多変量解析はその仮説の設定と、途中段階でのチューニングと結果の解釈において、主観、恣意的な操作が入り込む余地が非常に多い。しかも、仮説に比べると、途中段階でのチューニングと結果の解釈はあまり根拠がくわしく説明されないこともある。
これらについては、心構えは存在するが、共有しやすいダイアグラムや計算式は存在しない。これもなんとかならないものだろうか? そもそも仮説をダイアグラムや計算式したら、それを所与のものとしてチューニングや結果の解釈にまで一貫した制約となるようなものがあるとありがたい。

・科学の欺瞞あるいは認識論

681ページの松尾豊の解説でもろに現象学の間主観性のような話が出て来ていた。

それを我々の認知の仕組みが個々人で比較的似ているがゆえに、結果として同じような捉え方をする場合が多い。それを客観性と呼んでいるわけである。

哲学もダイアグラムと計算式で表現できるとわかりやすくなりそう。おそらくデジタル影響工作のナラティブも因果ダイアグラムと計算式で表すことができるだろう。


余談 私は実際に手を動かしてみないと理解できない、納得できない人なので、因果ダイアグラムと計算式をもう少し勉強していじってみようと思う。
余談だが、計算社会学でツイッターなどの解析結果が発表されるようになったのを見て、自分でもやって発表してみて、その限界や問題点がよくわかるようになった。その結果、現在はあまりやらないようにしている。
因果推論もやってみると課題が見えてきそうな気がする。

関連記事
おすすめです! データ分析読解の技術 (菅原琢、中公新書ラクレ、2022年3月9日)

ビッグデータ統計は、中立や客観性を保証せず、しばしば偏りを生む(ニューズウィーク日本版への寄稿記事、2021年10月26日)

リベラルの声が中間層に届かない件について 正直いろいろわからない

好評発売中!
『ウクライナ侵攻と情報戦』(扶桑社新書)
『フェイクニュース 戦略的戦争兵器』(角川新書)
『犯罪「事前」捜査』(角川新書)<政府機関が利用する民間企業製のスパイウェアについて解説。


本noteではサポートを受け付けております。よろしくお願いいたします。