傾向スコアの各手法概要
はじめに
傾向スコアとは主に観察研究でよく使われる統計解析の手法です。観察研究では、共変量によるバイアスを小さくするランダム化のような操作を行うことができません。そこで、バイアスを小さくするために使われる手法が傾向スコアです。
今回は傾向スコアについて紹介し、さらに、その中で代表的な手法についてまとめたいと思います。
また、第二弾では、これらの手法を実装し、比較を行う予定です。
傾向スコア
交絡因子$${X_i}$$から予測された処置群$${D=1}$$に割り当てられる確率を傾向スコアと呼び、
$$
P(D_i=1∣X_i) = e(X_i)
$$
で表されます。傾向スコアを利用する際には、アウトカム$${Y_i}$$に対して、
$$
Y_{1i},Y_{0i} ⊥ D_i∣e(X_i)
$$
が成り立っている必要があります。
ここからは具体的な手法について見ていきます。
マッチング
処置群$${D=1}$$とコントロール群$${D=0}$$に割り当てられた同じ傾向スコア$${e(X)}$$を持つサンプルをマッチングさせることで比較する手法です。
平均処置効果(ATE: Average Treatment Effect)は
$$
ATE=\frac{2}{N_m}\sum^{N_m}_{i=1}[D_iY_i - (1-D_i)Y_i]
$$
と推定します。ただし、マッチングしたサンプルサイズを$${N_m}$$としています。
この手法では、マッチングしたサンプルのみを利用するため、サンプル数が少なくなってしまいます。また、マッチングさせるために、どの程度の傾向スコアの差を許容するのかが重要になります。
層別化
マッチングさせる代わりに層別に分類、解析を行った後にひとつにまとめて解析を行う手法です。
平均処置効果は
$$
ATE = \sum^{K}{k=1}\frac{N_k}{N} (\bar{y{1k}} -\bar{y_{0k}})
$$
と推定できます。
このとき、全体のサンプルサイズを$${N}$$、第$${k}$$層のサンプルサイズを$${N_k}$$、$${D=1}$$のときの第$${k}$$層でのアウトカムの平均を$${\bar{y_{1k}}}$$、$${D=0}$$のときの第$${k}$$層でのアウトカムの平均を$${\bar{y_{0k}}}$$としています。
層ごとに1つにまとめるので、すべてのサンプルを使える半面、バイアスが残りやすい手法でもあります。
カーネルマッチング
マッチング手法を扱う上で、同じ傾向スコアを持つサンプルが存在しないことがよくあります。そこで、予測モデルからマッチングするサンプルを作成する手法がカーネルマッチングです。
$${D=0}$$のときのアウトカムを予測するモデル$${Y_0=f(e_0)}$$に$${D=1}$$の傾向スコア$${e_{1i}}$$を入力することで、$${D=1}$$の群と同じ傾向スコアを持つ$${D=0}$$のアウトカム$${\hat{Y_{0i}}=f(e_{1i})}$$を推定できます。
平均処置効果は、
$$
ATE = \frac{1}{N_1}\sum^{N_1}{i=1} (Y{1i} -\hat{Y_{0i}})
$$
で推定することができます。$${N_1}$$は$${D=1}$$に含まれるサンプルサイズです。
この手法では、何よりも予測モデル$${f}$$の精度が重要になってきます。
IPW(Inverse Probability Weighting)
傾向スコアを使ってアウトカムを重みづける手法がIPW推定量です。
平均処置効果は
$$
ATE=\frac{\sum^{N}{i=1}\frac{D_i}{e_i}Y_i}{\sum^{N}{i=1}\frac{D_i}{e_i}} - \frac{\sum^{N}{i=1}\frac{1-D_i}{1-e_i}Y_i}{\sum^{N}{i=1}\frac{1-D_i}{1-e_i}}
$$
で推定することができます。この式では、分子でアウトカムに重みづけされ、また、分母で全体の重みを調整しています。
傾向スコアが極端に大きいサンプルや小さいサンプルは重みが非常に大きくなるため、除外するなどの処理が必要になります。
DR(Doubly Robust)
IPWに、反実仮想の値を追加したものがDRになります。
平均処置効果は
$$
ATE = \frac{1}{N}\sum^N_{i=1}[\frac{D_i}{e_i}Y_i + (1-\frac{D_i}{e_i})\hat{Y_{1i}}] - \frac{1}{N}\sum^N_{i=1}[\frac{1-D_i}{1-e_i}Y_i + (1-\frac{1-D_i}{1-e_i})\hat{Y_{0i}}]
$$
で推定できます。$${\hat{Y_i}}$$は交絡因子$${X_i}$$から予測されたアウトカムです。IPWと同様に傾向スコアが大きく偏ったサンプルに対しては何らかの処理が必要になります。
OW(Overlap Weight)
Overlap Weightでは、各サンプルが属していない群に属する確率を使って重みづけを行います。
この手法は、両方の群にオーバーラップするような区間に重点を置く手法であるため、ATEを求めることはできませんが、ATO(Average treatment effect for the overlap population)と呼ばれる、どちらの群にも入りうる場合の効果は求めることができます。
$$
ATO=\frac{\sum^{N}{i=1}D_i(1-e_i)Y_i}{\sum^{N}{i=1}D_i(1-e_i)} - \frac{\sum^{N}{i=1}(1-D_i)e_iY_i}{\sum^{N}{i=1}(1-D_i)e_i}
$$
まとめ
今回は傾向スコアの代表的な各手法についてまとめました。
ケースごとに上記の手法を使い分けることで、交絡因子によるバイアスを取り除くことができます。
最後まで読んでいただき、ありがとうございます。
アポロならではの技術的課題に対する取り組みやプロダクト開発の試行錯誤で得た学びなどを定期的に発信していきます。
少しでも業界へ貢献できれば嬉しいです。
今後ともよろしくお願いいたします。
アポロでは、一緒に働く仲間を募集中です。
興味のある方は、ぜひ下記の採用サイトをご覧ください。
この記事が気に入ったらサポートをしてみませんか?