見出し画像

【読書録】岩波データサイエンスvol3 因果推論

書籍紹介

まあね、シリコンバレー企業群のリストラに伴って機械学習チームの解散やAIプロジェクトの凍結のニュースなんかが喧しい昨今ですが、こと因果推論周りに関してはあまり不景気な話を聞かないですね(要出典)。まあ元々、AIやMLと比してそこまで注目されていたり莫大な雇用を生んでいたジャンルではないからかもですね(要出典)。でも私の仕事でも割と使うようになってきたし、世間の注目度も徐々に上がってきているのは感じます(要出典)。ということで、読みました、「岩波データサイエンスVol3 因果推論」。

岩波書店の公式webサイトはこちら。

目次はこんな感じです(公式webより引用)。

  • 【特集】「因果推論――実世界のデータから因果を読む」

    • 〈特集まえがき〉(立森久照・林岳彦・伊庭幸人・星野崇宏)

    • <基礎>

      • 因果推論ことはじめ(立森久照)

      • 〈コラム〉時系列の因果と相関(伊庭幸人)

      • 相関と因果と丸と矢印のはなし―はじめてのバックドア規準(林岳彦・黒木学)

      • 準実験のデザイン―観察データからいかに因果関係を導き出すか(津川友介)

      • 統計的因果効果の基礎―特に傾向スコアと操作変数を用いて(星野崇宏)

    • <事例>

      • 因果効果推定の応用―CM接触の因果効果と調整効果(加藤諒・星野崇宏)

      • 傾向スコアを用いたバント効果の推定――ノーアウト1塁のバントは,得点確率を有意に高めるか!?(中村知繁・南美穂子)

      • 差の差法で検証する「保育所整備」の効果―社会科学における因果推論の応用(山口慎太郎)

      • 〈コラム〉モンテカルロ法と傾向スコア(伊庭幸人)

      • 〈コラム〉グラフ表現超速習――無向グラフと有向グラフのまとめ(伊庭幸人)

  • 【連載】

    • 正定値行列の情報幾何-(2)(小原敦美・土谷 隆)

    • 確率と論理を融合した確率モデリングへの道-(3)(最終回)(佐藤泰

  • 【その他・小説】

    • 計算機で作る面白いナンプレ(3)(とん)

    • 掌編小説《海に溺れて》第3回 確信(円城塔)

因果推論のありがたみ

私の知る限り、世の中で「データ分析」と称されているものの9999割は「相関関係の分析」ですね。ではここで相関関係ではなく「因果関係」って何という話をすると、割とややこしいことになるので本noteでは岩波データサイエンスをまんま引用して議論を回避します。本書曰く、

要員Xを変化させたときに要因Yも変化する場合にXとYの間に因果関係があるという。

岩波データサイエンスVol3,  p10

とあります。これに対して相関関係は、

2つの変数の間に一方の変数の値が大きいときに他方の変数の値も大きい(または小さい)といった直線的な関係がある場合に、この2変数は相関関係がある、もしくは相関しているという。

岩波データサイエンスVol3,  p10

とあります。
因果推論がビジネス界隈で注目され始めている理由を最も端的に表しているのは、ひとえにこの定義の違いにあるのではないかと個人的には思っています。
これは個人的な予想、もとい妄想ですが、おそらく多くの会社のデータ分析の現場では、次のようなやりとりがあるんではないかと考えています。

施策担当者「メールを使ったマーケティングで売上増加を図りたいんだけど、誰に送ればいいかな?」
分析担当者「データ分析の結果、性別的には男性よりは女性の方が、年齢的には30代や40代よりは20代の方が、平均的な購入額は高いですね」
施策担当者「よっしゃ20代女性にメールを送ろう」
施策担当者「…全然売上が上がらないんだが?」

まあ、実際のところはもう少しきめ細やかにやっているとは思いますし、上記のようなフローで進めて売上が全く「上がらない」ってことはない(少しくらいは上がる)とは思いますが、概ね、期待以上の成果が得られるのは稀なんじゃないかと思います。
それもそのはずで、「目下、20代女性に商品が支持されている」ことと「メール訴求によって(今存在しない)売上を作る」ことの間には隔たりがあります。ということでデータ分析者は通常、次のような提案をするでしょう。

分析担当者「『20代女性にメール訴求すれば売上が上がる』という仮説のもと、ABテストしましょう」

ということで、晴れてABテストをする筋道が整いました。20代女性というグループを2分割し、片方にはメールを訴求し、片方には何もしない。その後、両群の売上を比較するという段取りですね。ちなみにIT業界や広告業界では有名なABテストですが、因果推論の文脈ではRCT(Randomized Controlled Trial)と言います。
 さて、無事にABテストが終わり、メールマーケティングの効果もそこそこあるということが分かり、安堵していたところに次の分析依頼が来ました。

施策担当者「関東地区限定で地上波広告を打ったんだけど、このCM効果を測定して欲しい」
分析担当者「CM…だと…」

突然ですが、広告効果測定はなるべく代理店任せにせず、自社か、もしくは代理店と繋がりのない分析会社に任せた方がいいですね(巷の話に基づくと)。

さて地上波広告分析ですが、先程のメールマーケティングとは話が違います。なぜなら地上波広告はABテストが不可能だからです。
 例えば、アンケートを通じてCM接触者と非接触者を集めて来たとします。この接触者 / 非接触者 の間の売上の違いを比べても有意義な示唆にはつながりません。なぜなら、この2群間にはかなりの相違があることが想定されるからです。まず関東に住んでなければCMを見ることはほぼありません。また若年層よりは中高年の方がテレビを見る傾向にあります。またもしCMの放送時間が昼ならば、社会人よりは主ふや学生などの方がテレビを見る可能性が高いです。
 要するに、CM効果による売上の違いを知りたいのに、居住地や性別や職業といった、個々人の属性による売上の違いがデータに反映される可能性が高いです。というわけで、この辺から因果推論が役に立ちだします。上記の話と分析事例は本書の「因果効果推定の応用―CM接触の因果効果と調整効果(加藤諒・星野崇宏)」の項にわかりやすく解説されています。あまりに具体的に書くと本書のコピペになってしまうので詳細は避けますが、今注目の「傾向スコア」を使った分析例が紹介されています。

本書で紹介されている手法

上記ではRCTと傾向スコアの話をしましたが、他にも、

  • 層別解析

  • 回帰モデル

  • 操作変数法

  • 回帰分断デザイン

  • マッチング

  • 差の差法

などなどが紹介されています。

因果推論手法の「前提」の話

基本的にあらゆる状況で万能的に役に立つツールなんてものは存在しないのですが、事情は因果推論の世界でも同様です。そして、実社会で因果推論を使うにあたって重要なのは、(手法の理解も重要ですが)この前提の理解なんじゃないかと個人的には思っています。
本書ではその前提についてもちゃんと明記されています。例えば、操作変数法を使うにあたって、下記の条件が成立している必要があります。

1. 操作変数が直接アウトカムに影響を与えることはなく、操作変数は介入因子を通してしかアウトカムに影響を与えない
2.操作変数とアウトカムの両方に影響を与える「共通の原因」が存在しない
3.操作変数はきちんと介入因子に影響を与える

岩波データサイエンスvol3,  p52, 語句は一部簡易にしている

この前提を見たとき「いや〜商業データ分析でこの前提はきついな」と思いました。操作変数法は、「介入にバイアスがあるとき、介入因子に影響を与えるが、アウトカムには介入因子を通してのみ影響を与える変数(=操作変数)」を使って分析をする手法です。操作変数を用いれば、介入(=施策の割り当て有無。メールの送付有無やCM視聴有無など)とアウトカムの間に存在する交絡因子(=バイアスをもたらす要因。CMの例で言えば職業とか)に対応することができます。が、上記前提条件、特に2は検討し始めたらキリがなく、また1と3も怪しいケースが多いと思います。
 差の差法も「平行トレンド仮定」と「共通ショック仮定」が満たされている必要あると本書で明記されているのですが、これもなかなか強い仮定だと思います。webで調べると差の差法はCM効果検証などでよく使われているようで、その際、上記のCMの例で言えば関東の売上と関西の売上をCM前後で比較する、みたいな感じで使われているみたいです。しかし、上記の仮定に基づくと、

  1. 水やガスくらいのコモディティでない限り、関東と関西の売上が同じような傾向を辿ることって少ないのでは?

  2. CM期間中に関西独自のイベントも関東独自のイベントもなく、あっても売上には「一切」影響しない、もしくは影響しても「関西と関東の両方で生じ、同じタイミングで同じように」売上に影響する、という仮定は割とはちゃめちゃでは?

という疑問を抱かざるを得ません(あと因果推論一般の話としてSUTVAの仮定の話もあると思うんですが、上記の前提とSUTVAの仮定とのつながりを整理できるほどの知性を持ち合わせていませんでした)。

とはいえ、ある程度仮定を満たした状況下での因果推論に基づく分析はかなりパワフルであることは間違い無いので、みなさん本書を買って勉強しましょう٩( 'ω' )و。


この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?