Multiple ImputationとPropensity scoreについてのメモをつらつらと
Multiple ImputationとPropensity scoreについて以前いろいろ情報を集めたので、これから頑張ってここでまとめようと思います(と宣言して自分にプレッシャー)。基本的には両者はかなり同じコンセプトだと感じているのでまとめました。
The multiple imputation FAQ page
Missing data analysis using multiple imputation: getting to the heart of the matter.
”Three broad types of missingness mechanisms, moving from the simplest to the most general, are:
1.Missing completely at random (MCAR): A variable is MCAR if the probability of missingness is independent of any characteristics of the subjects. For example, each survey respondent decides whether to answer the “age” question by rolling a die and refusing to answer it if a “1” appears (ie, with a probability of 1/6). However, most missingness is not completely random. In the hospice study, for example, older patients are more likely than younger ones to have nonresponse on either income or insurance questions.
・ Complete Case Analysis(CCA)でも妥当な結論が得られる(=CCAをやっているのは、欠損に関してMCARを前提としている解析手法!=医学公衆衛生学研究で未だにしばしば用いられるが、統計学的にはあり得ない前提を置いている。)
・Complete Case Analysisは推奨しない Little et al. (2012)) 解析対象集団から、ランダムに一定の割合の対象者を除外することと同じ。検出力の低下は起こる
2.Missing at random (MAR): A more general assumption, MAR, is that the probability a variable is missing depends only on observed variables. For instance, older patients might be more likely to miss “insurance” than younger patients, and then “insurance“ is MAR if the study has collected information on age for all patients in the survey.
・ WEEやモデルに基づく推定方法(ML, Bayes,MIなど)で、妥当な推測が可能
※ Dr.RubinがMARという名称をつけてしまったのが普及してしまったらしい。実際には“Systematic Missing”!!!
3.Not missing at random (NMAR): Missingness is no longer “at random” if its probability depends on variables that are incomplete. A common example is that people with higher income are less likely to reveal them, that is, the nonresponse probability for the income variable depends on values that can be missing.”
・欠測のメカニズムは、観測されている変数では完全に説明することができない。 観測されていない変数にも影響される。
・Pattern-Mixture Models
・Selection Models
・NMARは、文献によってはMNAR (Missing Not At Random) とされることもある
”Ad Hoc Missing Data Methods Complete-Case Analysis
A common missing data approach is complete-case analysis (CC、もしくはCCA), which uses only subjects who have all variables observed and is also the default option in many statistical software. When data are MCAR, CC analysis results are unbiased. When data are MAR but not MCAR, it is permissible to exclude the missing observations, provided that a regression model controls for all the variables that affect the probability of missingness.9 However, CC analysis generally has major deficiencies.5,10 The results can be biased when data are not MCAR. In addition, the reduction of statistical power by discarding cases is a major drawback. For example, suppose data are MCAR across 20 variables and the missingness fraction is 5% for each variable. Using CC analysis will lose close to two thirds of the subjects because the fully observed subjects only account for (1% to 5%)20 ≍36% of the original sample.”
Some popular imputation software includes:
SAS: PROC MI uses regression methods and propensity scores for imputation. PROC MIANALYZE combines estimates output from various complete-data procedures.
S-plus: The missing data library supports different models for multivariate normal (“impGauss”), categorical variables (“impLogin”), and the conditional gaussian (“impCgm”) for imputation involving both continuous and categorical variables.
R: It supports libraries such as “norm,” “cat,” “mix,” and “pan” for imputing data under multivariate normal models, log-linear models, general location models, and linear mixed models, respectively. In addition, libraries including “mi” and “Hmisc” impute data in more complex scenarios and provide tools for diagnostics.
IVEware: Imputation and Variance Estimation software for SRMI, callable by SAS (
MICE: Multiple Imputation by Chained Equations, library available in both S-plus and R (
ICE: SRMI library available in STATA.”
” MVN modelを使うのが得策だと思います。MICEはセオリー的な根拠がないので。カテゴリー変数はダミーコードして連続変数として扱えば問題ありません。”
Multiple imputation for missing data: fully conditional specification versus multivariate normal imputation.
”Multivariate normal(MVN)はカテゴリー変数であってもbinary variableであっても連続変数として扱うモデルです。
MICEはより新しいモデルで、データの分布を考慮してモデルを組むのですが(Logistic regressionなどを用いて)、統計学的な証明がされていません。
”MICEはlogistic regressionなどを使うので、complete separationの問題などがあるとconvergeしません。
一方で、MVNは全ての欠損値を一回でimputeするので、model convergenceの問題がありません。
”こちらのKohei Hasegawa先生との論文ではMVNでMIした後に、multilevel model (random-effects model) をフィットしています。
Multiple imputation
In the patient- and ED-level models we conducted multiple imputation byusing the multivariate normal imputation method for the variables withmissing data. The proportion of missing values was small (
Make sure the directory containing the SAS executable binary file (SAS.EXE) is on the System Path. A quick way to check this is simply to select the Start Menu, Run... prompt and then type in cmd, to open a Windows Command Prompt. Change into the C:\iveware directory; then type sas at the command prompt. If SAS executes then it is already set on the System Path.”
Much ado about nothing: A comparison of missing data methods and software to fit incomplete data regression models.
”proc miとiveを比較している文献もありました。”
”*ただし、MICEは収束しにくく、MVN(上記ではMCMCと表記)と結果も大きく変わらない(Lee & Carlin 2010)。MVNでカテゴリ変数を利用する場合、ダミー化して、例えば3カテゴリーだったら2つのダミーをいれてインピュテーションする。そして、最も大きい値を採用する。ただし、ダミーの両方が0.5未満だった場合は投入していないカテゴリーを採用する。連続変数や順序変数は四捨五入する(このあたりの詳細は、Carpenter & Kenward. Multiple imputation and its application. Wiley に書かれています)。
Lee KJ, Carlin JB: Multiple imputation for missing data: fully conditional specification versus multivariate normal imputation. Am J Epidemiol 171(5):624-632,2010.”
Selecting the number of imputations (m)
Historically, the recommendation was for three to five MI datasets. Relatively low values of m may be appropriate when the fraction of missing information is low and the analysis techniques are relatively simple. Recently, however, larger values of m are often being recommended. To some extent, this change in the recommended number of imputations is based on the radical increase in the computing power available to the typical researcher, making it more practical to run create and analyze MI datasets with a larger number of imputations. Recommendations for the number of m vary. For example, five to 20 imputations for low fractions of missing information, and as many as 50 (or more) imputations when the proportion of missing data is relatively high. Note that estimates of coefficients stabilize at much lower values of m than estimates of variances and covariances of error terms (i.e., standard errors). A larger number of imputations may also allow hypothesis tests with less restrictive assumptions (i.e., that do not assume equal fractions of missing information for all coefficients). Multiple runs of m imputations are recommended to assess the stability of the parameter estimates.
・データセットをたくさん作ると、アウトカムをMIするかどうかによる推定値の違いが小さくなるとの記載があり(Young, 2010)。
・Dr.野間(2014、講演会):「最低でも100‐1000個でしょう」 ←坪谷「(苦笑)」
●Rounding After Multiple Imputation With Non-binary Categorical Covariates
**Imputing the Missing Y’s: Implications for Survey Producers and SurveyUsers
1) アウトカムだけcomplete analysis
2) アウトカムも含めてMIして、MIしたアウトカムを持つものは削除して解析(1と比較すると、結局のNはアウトカムについてのcomplete analysisiになるが、アウトカム以外のMIにアウトカムも使う点が1と違う)
3) アウトカムも含めてMIして、MIしたアウトカムを使う
論文のスペースが許すなら、supplementary tableなどで感度分析として上述の1~3のすべての結果を提示してもよいのではないか。
Handling missing data in RCTs; a review of the top medical journals…/pdf/1471-2288-14-118.pdf
”いわゆる4大医学雑誌(BMJ,JAMA,Lancet,NEJM)に2013年7月から12月に掲載された77個のRCT論文において、欠損の扱いについて調べた。そのうち73(95%)で何らかの欠損があり、multiple imputation(MI)をやっていたのは、N=27 (35%)だけでした!一番多いのはcomplete case analysis (N=33, 45%)でした!”
The prevention and treatment of missing data in clinical trials.
”まぁいろいろ書いたが、一番大切なことは欠損を作らない努力をすることですw 病気も欠損も予防が大事だよね!”
・ Complete-Case Analysis
・ 単純な補完方法(Single Imputation)
・ 重みつき推定方程式(Weighted Estimating Equation; WEE)による方法
・ モデルに基づく方法(最尤法,ベイズ推測,多重代入法など)
・ Single Imputation 単一代入法: 欠測値に対して、適当な単一の値を代入する補完方法。超簡単。 すべての単一代入法は「欠測データを100%確実に予測できる」のでなければ、分散を過小推定する
・ 得られるP値も誤り(Type-1 Error Rateを名目水準以下に保持できない)
・ 得られる信頼区間も誤り(過度に狭い)
・ 主要な評価に用いるのであれば、この精度の問題も含め、科学的な根拠を説明できなくてはいけな
・ Last Observation Carried Forward (LOCF): 脱落を起こした時点での値を、単純に補完値として利用する単一補完法。これもイージー。日本で行われる治験でも、LOCFは多くの試験で用いられてきた。最終観測時点での測定値から、アウトカムが不変であると仮定いる点にbiasあり。 O’Neill and Temple (2012) LOCFを主要な解析に利用する場合は、その科学的根拠を説明できなくてはいけない
・WEE:完全データが観測された対象者についての重みつき推定方程式。 「観測される確率(欠測を起こさない確率)の逆数」で重みつけた推定関数に基づく推定量は一致性を持つ
・Inverse Probability Weighting:欠損を起こしやすいケースに重み付けをする
Propensity score:
坪谷の理解:PSの使い方はいろいろあって、IPTWとかPSを連続量で調整するとか、なんかいろいろやっている人たちがHSPH含めてたくさんいるが、Dr.RubinのPSの始まりの考えを理論的に理解し用いるならば、PS-matched pairを(1:1ではなくできるだけサンプルを使って1:Nで)作り、基本特性で両群に差が無いことを示した上で、RCTっぽい感じができたら、メインの解析をするのが良いのではないでしょうか。マッチさせる時のキャリパーは、0.25(or 0.20)*SDなどが標準的だとは思いますが、要はどうマッチさせたかではなく、マッチ後の両群の基本特性に差が無いかどうかなので、キャリパーは、0.25*SDにこだわる必要もないとは思うが、何か目安が必要だと思うので、とりあえず0.25*SDと書いておきます。
星野 崇宏
調査観察データの統計科学―― 因果推論・選択バイアス・データ融合 ――
岩崎 学
そしてmatched pairを作って、両群の基本特性を比較してみて、差が無ければおめでとうございます!差があれば、PS model式の再考、、、orz
え?再考はどうやるかって?残念ながら「こうやれば差はなくなるよ」という方法はありません。投入する変数を変えてみたり、投入する変数の2乗、3乗、log変換したものなどを含めて、時には重要そうな変数の交互作用項を入れたりして、両群に差がなくなるまで(or自分が燃え尽きるまで)PS modelを作り直し、両群の基本特性を比べ続けるというなんとも職人的こだわりを感じる作業。
Variable selection for propensity score models.
”The results suggest that variables that are unrelated to the exposure but related to the outcome should always be included in a PS model. The inclusion of these variables will decrease the variance of an estimated exposure effect without increasing bias. In contrast, including variables that are related to the exposure but not to the outcome will increase the variance of the estimated exposure effect without decreasing bias.”
Are propensity scores really superior to standard multivariable analysis?
ICRweb 統計スコアの講義(2014.5)資料より
• 条件にもよるがIPTWが最も推定値のバイアスが少ない傾向あり
Austin PC Int J Biostat. 2009 Apr 14; 5(1):Article 13.他
• 多変量解析は唯⼀解析のモデルの妥当性が問われるので慎重に使うべき。ただし、解析のモデルが妥当であれば良い⽅法
Multivariate Behav Res. 2011 May; 46(3): 399–424.
• マッチングは相対的にバイアスが少ないので、まずマッチングを⾏い、次に⼀般化可能性を⾼めるため層別解析、多変量解析などを⽤いるのが良い
Katz, Mitchell H. Cambridge University Press, 2010.
• 過去の発表された論⽂をレビューすると、従来の⼿法(傾向スコアを⽤いずに、多変量Cox回帰や多変量ロジスティック回帰を⾏う)と傾向スコアを⽤いた解析は、ほとんど結果が変わらない
Shah et al. Journal of Clinical Epidemiology 58(2005) 550-559.Sturmer et al. Journal of Clinical Epidemiology 59(2006) 437-447.
• ⼀般の単純な解析で⽬的が⼗分果たされるなら、従来の⼿法を⽤いていれば⼗分
Katz, Mitchell H. Cambridge University Press, 2010.
• 結局の所、傾向スコアの解析・傾向スコアを⽤いない多変量解析を全て⾏って(感度解析)結果の頑健性を確認すべし
Katz, Mitchell H. Cambridge University Press, 2010.
Propensity-score matching in the cardiovascular surgery literature from 2004 to 2006: asystematic review and suggestions for improvement.
There are three commonly used propensity score methods:
1) covariate adjustment using the propensity score,
2) stratification on the propensity score,
3) and propensity score matching.
Earlier studies have shown that propensity score matching results in the comparison of treated and untreated subjects who are more similar than does stratification on the propensity score.6,7
「標準化効果量」Absolute Standardized Difference
実際に使っている論文:Wijeysundera DN et al: Arch Intern Med 170: 1365-74, 2010
J Thorac Cardiovasc Surg. 2007 Nov;134(5):1128-35.Propensity-score matching in the cardiovascular surgery literature from 2004 to 2006: a systematic review and suggestions for improvement.Austin PC1.
「Wijeysundera DN et al: Arch Intern Med 170: 1365-74, 2010」の論文がREFを間違えたのか、それとも適当にごまかしているだけなのか(苦笑)
「Absolute Standardized Difference」の説明を求めて、pubmedで"propensity score" "Absolute Standardized Difference" で検索すると以下の論文(だけ)がヒットしますが、この論文もまた「Absolute Standardized Difference」を説明しているものではないようでした・・・・
Pharmacoepidemiol Drug Saf. 2014 Aug;23(8):802-11. doi: 10.1002/pds.3574. Epub 2014 Jan 29.Propensity score balance measures in pharmacoepidemiology: a simulation study.Ali MS1, Groenwold RH, Pestman WR, Belitser SV, Roes KC, Hoes AW, de Boer A, Klungel OH.
一方で、pubmedではなく、google scholarで同様の検索をすると、そっちの方がそれっぽい論文をたくさん提示してくれる気がしました(が今度は多すぎて読む気力起きず・・(苦笑))
まぁそれはともかく、「Absolute Standardized Difference, %」は重要だろうなぁ~とは思いました、値そのものだけではなくSDも含んでいるので。
ちなみに以下のTsuboya et alの論文では、この時はPSによるマッチングの前後のimbalanceの変化の評価は、SDは含まない概念の指標(≒分布は考慮していない)を使っています(この概念自体はカワチ先生が教えてくれたものですが)。
Working overtime and risk factors for coronary heart disease: A propensity score analysis based in the J-SHINE (Japanese Study of Stratification, Health, Income, and Neighborhood) study.
Tsuboya T1, Aida J, Osaka K, Kawachi I.
