見出し画像

Missing at random とは?

臨床研究における欠測データ

データベースを用いた臨床研究でしばしば欠測データの問題に直面します。このnoteでは欠測のメカニズムであるMissing at randomについて考えたいと思います。欠測のメカニズムとは欠測する確率が何に依存するかを表しています。

例えば、重症外傷のデータベースで血圧のデータが一部の症例でない(欠測している)ことがあります。この血圧が欠測している症例のデータをみると、多くの場合でショック状態の患者で血圧の欠測が観察されていて、ひょっとすると血圧が低すぎて測定不能だったのか、と思われました。このとき、この欠測のメカニズムは"Missing at random (MAR)"ぽい、もしくは”Missing not at random (MNAR)”ぽいでしょうか?。

Missing at randomの場合には多重代入法などの欠測補完の手法を利用することで、欠測によるバイアスを是正する(と期待される)解析ができるのに対し、Missing not at randomの場合には代入法によって欠測により生じうるバイアスを是正できないといわれるので欠測のメカニズムについて考えることは重要です。

最近、機械学習系の研究者と議論したときにこの欠測のメカニズムに認識に違いがありました。また最近、この例をX(Twitter)で提示し行ったアンケートでは、8割の人が「Missing Not at Random」であると回答し、2割が「Missing at random」と回答しました。確定的な答えはない、主観的かなと思う所もありますが、個人的には「Missing at random」と考えるのが合理的だと感じています。このあたりについて少し整理してみたいと思います。

欠測データの3つのタイプ

一般に、欠測データには次の三つのタイプがあると言われます。

  • Missing completely at random (MCAR)

  • Missing at random (MAR)

  • Missing not at random (MNAR)

上の三つについて整理したいと思います。

Missing completely at random
これが一番わかりやすいのではないかと思います。欠測が完全にランダムに発生し、他のデータとは無関係の場合です。以下に教科書の説明を引用します。

欠測が完全にランダムに発生しており, モデリングの対象となる変数および関連する変数に依存しない場合のことである。

(出典)欠測データの統計科学、高井

ある値の欠測する確率が、その対象のデータと無関係であることを意味する。たとえば、 調査票を受け取った人がサイコロを転がして, 1~5が出たら回答するが6が出たら回答しないとする。この場合、 欠測は完全に無作為と考えられる。つまり、 欠測データは完全データからの無作為なサブサンプルとみなすことができる (一部改変)

(出典)欠測データ処理、高橋

この説明に合致するのがMissing completely at randomです。たまたま、血圧を測定したときに血圧計が壊れていたので測定できなかった、とかはMCARと考えても差し支えないのかもしれません。

Missing at random (MAR)
これがややこしいです。

欠測するかどうかの確率が観測値には依存するが、欠測値には依存しない場合のことである。

(出典)欠測データの統計科学、高井

欠測が、観測されたデータとは系統的に関連があるが、測定されていないデータとは系統的に関連がない。

(参考)Managing Missing Data in Patient Registries: Addendum to Registries for Evaluating Patient Outcomes: A User’s Guide, Third Edition

例えば、もし血圧のデータがない症例全部で「来院時心停止」という変数が”yes"であったならば、これに該当すると考えられます。心停止のときには血圧は臨床的には測定不能です。つまり、この場合、血圧の欠測は「来院時心停止」という測定されている変数に完全に依存しているのでMissing at randomと考えていいのではないかと思います。

Missing not at random (MNAR):
欠測の発生が観測されないデータに依存している状況を指します。「無視できない欠測」とも呼ばれます。教科書には以下のように書かれています。

欠測が調査者が測定していないイベントや要因に関連している。

(参考)Managing Missing Data in Patient Registries: Addendum to Registries for Evaluating Patient Outcomes: A User’s Guide, Third Edition

これはある値の欠測する確率がその変数の値自体に依存しており、 かつ観測データを条件にしてもこの関係を崩すことができないことを意味する。

(出典)欠測データ処理、高橋

欠測が欠測それ自体に依存している場合や測定できない因子に依存している場合です。上の例で、心停止という変数がない場合、(またバイタルサインなど他の関連したデータが全くない場合)、血圧の欠測が観測できない変数(この場合血圧やその他の関連する変数)に依存しているのでMNARと考えられるかもしれません。

Missing at random? Missing not at random?

医療のデータベースでは、このMARとMNARを厳密にわけるのは難しそうです。以下記載のように程度問題だと考えることができます。

現実にはMARとNMARの違いは種類の違いではなく程度の違いとして理解するべきであり、手元の欠測データはMARとNMARのどちらに近いかという問題である。

(出典)欠測データ処理、高橋

臨床研究におけるデータは多くの場合、変数は相互に関連していることが多く、欠測がその値自体の影響で欠測が発生していても、他の観測データから欠測の発生を推測できることが多いのではないかと思います。なので多くの場合、MARっぽいと考えることができるのではないかと思います。

例えば、重症外傷のデータベースで血圧が欠測していたケースでは、観測されたデータのみに欠測が依存すると断言できるわけではないですが、バイタルサイン(脈拍、意識レベル)、乳酸値、出血の程度などの補助的なデータから血圧が低くて欠測することをある程度、予測することはできると思います。なのでMARと想定しても許されるのではないかと思います。またMARと想定しても差し支えないだろうとするためには欠測に関連するようなデータをできるだけ多く収集されていることが望ましいと言われています。

また代入モデルに含める補助変数をできる限り多くすることによってMARの仮定を満たす確率が向上することが知られている。

(出典)欠測データ処理、高橋

まとめ

欠測がMissing at randomなのかMissing not at randomなのかは断定することはできませんが、観測されているデータが欠測に関連しているかどうかでMissing at randomに近い、またはMissing not at randomに近いと考えることができます。

重要なことはデータの構造やデータの特性、背景知識がないと、これらを判断することはできないと思います。今回欠測データのメカニズムについて他の領域の研究者と議論したことを契機に、データを扱う際は、収集の現場やデータの特性や背景知識について深く理解していることが望ましいなと改めて感じた次第です。データの欠測についての理解をさらに深めていきたいと思います。

*筆者は生物統計の専門家ではありませんので、下記の成書を参照してください。内容の妥当性はご自身でご判断ください。

参考文献

欠測データの統計科学一医学と社会科学への応用ー
高井啓二、星野崇宏、野間久史

欠測データ処理 Rによる単一代入法と多重代入法一
高橋将宜、渡辺美智子


この記事が気に入ったらサポートをしてみませんか?