因果推論の科学（2023年7月10日統計的因果推論追記）

2023年5月15日 18:42

ベイジアンネットワークを用いた未来予測と因果推論に貢献した業績でチューリング賞を受賞した著者が自ら理論の限界に気づき、環境に働きかけること（介入）で一段、事実に反する仮定を想定すること（反事実）でさらに一段高所から因果推論を行う理論展開を試みたチャレンジングな一冊。著者自らが考案した因果ダイアグラムをチェーン、フォーク、コライダーに整理し、さらにバックドアの概念を導入すれば因果推論が明瞭に行えることを示す。
#わたしの本棚 #因果推論の科学

はじめに

「人工知能」の「データ中心の視点から捉える深層強化学習」古田拓毅において「自由自在に複雑な実環境と相互作用を行う深層強化学習のエージェントはいまだ見通しが立っていない」との記述がある。

画像分類、翻訳、文章生成、タンパク質構造予測などは人間を超えつつあるが、
実環境と相互作用を行う深層強化学習のエージェントはいまだ見通しが立っていない

データ中心の視点から捉える深層強化学習
人工知能Vol37,No.4,pp507-515　より pic.twitter.com/Wsk0fbAy1B
— YANO Tomoaki@20230612SEAD35in広島OS2-5 (@yanotomoaki) July 7, 2022

ロボットに自然言語で指示を出すことも可能になってきた上、空間を人間と共有する分野にもロボットが進出してきている昨今、不思議なことをいうものだと思っていたが、本書を読んで謎が氷解した。

「人工知能」の論文の著者は、本書に書かれている「はしご」の2段目に上る方法の見通しが全く立っていないと言いたかったのだ！

本書の著者であるパール氏は、理論は数式に結晶化され、数式が全てだと述べており、その言葉どおりに、著者が練り上げた数式（p506の式９･5）が示される。

著者は、多くの統計学者が本書に書かれている内容を理解せず、未だに多くの誤った相関関係や因果関係を導き出し、拡散していると嘆く。

p531では、「因果的な問いにデータのみで答えることは決してできない。モデルフリーでデータを分析してもデータを解釈することは決してできない」と改めて強調している。

因果的な問いにデータのみで答えることは決してできない。
モデルフリーでデータを分析してもデータを解釈することは決してできない」
因果推論の科学p531 https://t.co/n2yK1dhdce
— YANO Tomoaki@20230612SEAD35in広島OS2-5 (@yanotomoaki) March 30, 2023

本書で述べられていることは順を追って注意深く読まないと理解しづらい面があり、さらなる理論展開が必要で、異論も多いようである。

しかし、本書を読み終えると統計学の現状を俯瞰すること、現在のAIと人間の推論のしかたの違いを明確に認識することもできる。

それでは、本書の概要を理解する旅に出かけよう

序章「因果推論という新しい科学」

・統計学は相関関係に集中し、因果関係は無視され続けてきた。
・ビッグデータがあれば、あらゆる問題の解決策が得られると考える人がいる

著者の主張

・データは基本的に何も教えてくれない。
例：ある薬を服用した人が服用しなかった人より早く回復した事例に関して、データは「なぜそうなったか」を教えてくれない。

著者が提案する、因果推論に使える二つの手法

・因果ダイアグラム
・記号言語

因果推論の言語を用いて「思考する機械（強いAI）」の実現がはじめて可能になる

因果推論エンジンの青写真

図1.1参照（クリックして探してみてください）

第1章　因果のはしご

「存在しないものを想像する能力」がすべての鍵
ユヴァル・ノア・ハラリ著「サピエンス全史」より

1段目のはしご　関連付け（LLMは、ここ）
2段目のはしご　環境への介入
　因果モデルを立てられれば、「関連付け」を用いて予測可能
3段目のはしご　反事実
　現実にないものを想像したり、「もしも、もしもだよ」と仮定する。
　データがないのだから、「関連付け」と相性が悪い

図1.2参照（クリックして探してみてください）

処刑場の「因果ダイアグラム」
　原因から結果に向かう矢印（関連付けには矢印はない）
　発砲命令を待たずに自由意志で発砲する場合、ダイアグラムの矢印を消去するだけ
　矢印の背後には確率があるが、確率が変わってもダイアグラムの構造は変わらない

正しいダイアグラムが描ければ、
問いの内容は考えなくて良い柔軟性がある

・「因果関係は確率で求められる」という主張への反論
・著者自身が提唱し、広く受け入れられている「ベイジアンネットワーク」は、因果関係が欠落している

#統計パール著『因果推論の科学』での「因果推論のはしご」の3段階を1枚にまとめたものの改訂版 pic.twitter.com/1zux96CNIT
— 黒木玄 Gen Kuroki (@genkuroki) March 27, 2023

第2章　因果推論創世記

遺伝を再現するゴルドンモデル

・どんなに世代が進んでも、極端に背の高い人間や背の低い人間が現れない（平均への回帰）モデルを創る
・時間を逆転しても平均への回帰が観測されるため、平均への回帰は因果関係ではなく、相関関係で表される
・相関関係で多くのことが説明できるため、因果関係は排除された
・因果関係での説明が必要な事象は「疑似相関」とされた

シューアル・ライト

・モルモットの毛色を決めるパスダイアグラム（有向線分で事象をつなぐ）
・無視され続け、現在でさえ「すべての答えはデータにある」と主張する経済学者がいる

第3章　結果から原因へ

ベイズの定理

・逆確率の計算が順確率と比較して難しい非対称性が存在する
・ベイズの定理により、順確率から逆確率の計算が可能になった
・事象が未来に起こると信じている信念（未来予測）を、事象の発生により更新できる
・反論：信念を確率に置き換えることが許されるのか？

ベイジアンネットワーク

・ニューロンを規則でつなぐ論文にヒントを得た
・親ノードから子ノードに流れる情報は「条件付き確率」で信念更新、子ノードから親ノードに流れる情報は「尤度比」を掛けて信念を更新するネットワーク（確率伝播法）

ジャンクション（感想：因果ダイアグラムの基礎をなす構造。超重要）

リンクが2つの3ノード・ネットワーク
1．チェーン　A→Ｂ→Ｃ　Ｂ：媒介因子は、Ａの情報とＣの情報を切り離す
2．フォーク　A←Ｂ→Ｃ　Ｂ：交絡因子は、ＡとＣの共通原因（疑似相関の正体）
3．コライダー　A→Ｂ←Ｃ　Ｂを条件付けると、ＡとＣに従属関係が生まれる

条件付き確率表

・定性的記述のダイアグラムに定量的入力を与える

ベイジアンネットワークから因果ダイアグラムへ

#統計パール著『因果推論の科学』第3章では、ベイジアンネットワークと因果ダイアグラムの違いについて

【ベイジアンネットワークの矢印は、因果関係を何ら仮定していない点が因果ダイアグラムとは違っている】

と結構わかり易く説明しています。

ベイズ統計のためには因果関係の情報は無用。続く https://t.co/cXZRNDWl3c pic.twitter.com/v1oZS31zet
— 黒木玄 Gen Kuroki (@genkuroki) March 27, 2023

第4章　（フォークの）交絡を取り除く

交絡因子

・過大評価する統計学者：過剰調整
・過小評価する統計学者：因果関係を無視

交絡の解消

・ランダム化比較試験（ＲＣＴ）
①交絡の解消には因果的手法が必要
②因果ダイアグラムを使えば、確実に体系的に交絡を解消できる

（感想：「ランダムに選択すれば、あらゆる交絡因子が両方のデータ群に平均して分配される」は、まさに逆転の発想で、目からうろこ）

do演算子とバックドア基準

5つのゲームで、媒介変数をいじらないといけない場合といじってはいけない場合を明確化
（内容は省略）

第5章　たばこは肺がんの原因か？

因果ダイアグラムで喫煙論争に決着をつけた話（内容は省略）

第6章　パラドックスの詰め合わせ

さまざまなパラドックスも因果ダイアグラムで決着

・モンティ・ホールのパラドックス（内容は省略）
・バークソンのパラドックス（内容は省略）
・ドラッグＤのパラドックス（内容は省略）
・ロードの食堂のパラドックス（内容は省略）

第7章　介入（はしごの二段目に上がる）

最も単純なルートーバックドア調整

交絡解消因子の十分なデータを持っている時

裏口から正面玄関へーフロントドア調整

直接の因果経路のすべてのデータが揃っている時
do演算子を含む確率をdo演算子を含まない確率に置き換える
式(7.2)を式(7.1)に置き換える（著者は、数式しか信じない）

行動すること（do演算子）を見ること（do演算子のない式）に変える3つのルール

#統計はしごの2段目の潜在結果変数Yₓの取り扱いは、do(X=x)記法の下でのYの取り扱いで置換でき、『因果推論の科学』でもそういう記号法で説明している部分が多いです。

do(X=x)記法には単にYₓをYと書ける「利点」がある。

個人的には違う変数が別の記号で書きたいので、Yₓを使う方が好き。 https://t.co/4PAd9VMvxl
— 黒木玄 Gen Kuroki (@genkuroki) March 28, 2023

第8章　反事実（はしごの三段目に上がる）

構造モデルと反事実

・構造モデルでは、Xがｘである場合をdo(X=x)と記述する
反事実の世界は無数にあるのに、脳はどのようにしてその中から世界を絞り込むのだろう？

アプローチ

例題：アリスがもし学部卒だったら、給与はどうなったのか

・欠損データは「因果推論」の根本的問題なのか？
反事実の確率表は欠損データだらけになる
線形回帰で欠損データを埋める
構造的因果モデルを用いて欠損データを埋める

#統計以上のような証拠を見れば、パール著『因果推論の科学』第8章でルービン先生について述べている部分が正しいことが分かる。

特に経済学部で因果推論の講義を受講する場合には、パールさん達の仕事の評価においてルービン先生の側が一方的に間違っていたという事実の取り扱いに注意が必要かも。 pic.twitter.com/xKT29mSHl6
— 黒木玄 Gen Kuroki (@genkuroki) March 30, 2023

#統計まとめのための問題4：『因果推論の科学』での因果推論のはしごの2段目と潜在結果変数Yₓの関係及び、3段目とYₓのさらなる拡張の関係について説明せよ。

解答例
↓
1段目: Y=f(X,M,Z,U), M=g(X,Z,V)
2段目: Yₓ=f(x,Mₓ,Z,U), Mₓ=g(x,Z,V) (潜在結果変数)
3段目: Y_{x,x'}=f(x,M_{x'},Z,U) https://t.co/osgUmUMWcD
— 黒木玄 Gen Kuroki (@genkuroki) March 27, 2023

#統計まとめのための問題5：『因果推論の科学』第8章にはルービン先生へのぎょっとするような言及があるのですが、どうしてそんなことに？

解答例
↓
「DAG対PO」という対立図式を描くこと自体が有害。
「DAGとPO」の__両方を常に__使う方が良さそう。
(DAG=有効非巡回グラフ、PO=潜在結果)
↓ https://t.co/Z2dc4T6OD0
— 黒木玄 Gen Kuroki (@genkuroki) March 27, 2023

第9章　（チェーンの）媒介

「なぜ？」の二つの種類
１．現象の原因を知りたい
２．既知の原因と既知の結果の関係を知りたい

２つめのなぜ？は、媒介変数を用いて定量化可能
式(9.1)～式(9.5)

第10章　ビッグデータ、AI、ビッグクエスチョン

因果モデルを理解する研究者が増えているが、本章では敢えて相関関係とAIについて述べる

ビッグデータと因果モデル

「十分に賢くデータマイニングをすれば問いへの答えが必ず見つかる」わけではない

トランスポータビリティ

特定の分野の研究結果を、他の分野の研究に移設可能かどうかは、因果ダイアグラムの類似性で判断可能

例題：サーフィン広告の有効性評価
（内容は省略）

ディープラーニングの結果は、その結果に至った理由がわからない。
強いAIは、理由を説明し、かつ自由意志を持つ

強いAIは、人類への最高の贈り物

ただ『因果推論の科学』にもあったように、AIがどうあがいても（少なくともしばらくは）到達できない人間の領域というのはあるようなので、そこがAI以降の時代にクリエイティブ業がやっていく上でのポイントになってくるんだろうなとは思う。もちろん影響はドでかいのだろうがhttps://t.co/Tk3X3EvMu5
— ぬまがさワタリ (@numagasa) March 29, 2023

おわりに

文字ばかりになってしまいましたが、図1.1と図1.2が、本書のアウトラインのすべてなので、ぜひリンクから見に行って欲しいです

本文には具体的な事例が豊富に載っています。
時間が許す方は、ぜひ
たくさんの例題を、自分自身で因果ダイアグラムを作成して解かれてみると良いと思います
（という私もまだチャレンジできていませんがｗ）

最後に黒木先生お薦めの書籍等のツイートを記載しておきます

#統計分野の開拓者自身の発言を『因果推論の科学』以外にも沢山読みたければ、次のブログがお勧め。これもめちゃくちゃ面白いです。https://t.co/EcYEUP7gwE
Causal Analysis in Theory and Practice

英語が苦手なら、自動翻訳をかければよいと思います。
— 黒木玄 Gen Kuroki (@genkuroki) March 28, 2023

#統計このスレッドでは、パール著『因果推論の科学』を初めて読んだときに、曖昧だと感じられることや、ぎょっとするようなことについて、できるだけクリアに説明したつもり。

インターネット上の関連情報へのリンク(へのリンク)付き。
— 黒木玄 Gen Kuroki (@genkuroki) March 27, 2023

#統計まとめのための問題3：『因果推論の科学』の読者にとって役に立ちそうな解説を紹介せよ。

解答例
↓
Statistical Rethinking https://t.co/olDu7gagRZ
— 黒木玄 Gen Kuroki (@genkuroki) March 27, 2023

#関連スライドのツイート

統計的因果探索の概説
AI・データ利活用研究会第48回https://t.co/sXMD93NxEN
— SHIMIZU Shohei | 清水昌平 (@sshimizu2006) May 19, 2023

2023年6月18日追記

「#因果推論の科学」では
因果推論のはしごを登らないとムリ
と述べているな（感想）

AIロボ、相棒になれるか五感を備え人間超えも：日本経済新聞 https://t.co/9n2jR4Rnot https://t.co/3BuitXptjk pic.twitter.com/arwYeBq352
— YANO Tomoaki@20230726-28TechnoFrontier1A09-2 (@yanotomoaki) June 17, 2023

2023年7月10日追記

Imbens&Rubinの邦訳を買いました。
発売日に書店に駆けつけるワクワク感は、子どもの頃のそれと変わらないですね。 pic.twitter.com/Hrn8zjwysE
— いかり (@bebebeBayes) July 7, 2023

この記事が参加している募集

#わたしの本棚

19,781件

本noteは私の備忘録ですが、自由に読んでくださいサポートは、興味を持ったnote投稿の購読に使用させていただきます