シリーズGTP統計先生（欠測値の処理）

Exodus from Ennui

2023年5月14日 13:30

臨床研究で得られたデータの取り扱いの中で、経時測定において欠測値が生じた場合の補間方法とそれぞれのメリット、デメリットは何ですか？

臨床研究で得られた経時測定データにおいて欠測値が生じた場合の補間方法には、主に以下のようなものがあります：

リストワイズ削除（完全ケース分析）：欠測値を含む観測値を全て削除します。
1. メリット：簡単に実装でき、統計的な前提条件が少ない。
2. デメリット：データがランダムに欠落していない場合（すなわち、欠落が何らかのパターンを持つ場合）、バイアスが生じる可能性がある。また、データの損失により、分析の統計的パワーが低下する。
平均代入法：欠測値をその変数の平均値で補う方法です。
1. メリット：簡単に実装できる。
2. デメリット：データのバリエーションを過小評価し、推定値の不確実性を過小評価する可能性がある。また、データがランダムに欠落していない場合、バイアスが生じる可能性がある。
最後の観測値持ち越し法（LOCF：Last Observation Carried Forward）：欠測値をその前の観測値で補います。
1. メリット：実装が容易であり、時間的な要素を考慮している。
2. デメリット：時間的な変化を無視してしまう可能性がある。また、データがランダムに欠落していない場合、バイアスが生じる可能性がある。
多重代入法（Multiple Imputation）：欠測値を複数の異なる値で補う方法です。これにより、欠測値に対する不確実性を推定結果に反映することができます。
1. メリット：欠測値の不確実性を考慮に入れることができる。また、欠落が完全にランダムでない場合でも、バイアスが少ない。
2. デメリット：実装が複雑であり、より高度な統計的知識と技術を必要とする。

以上のような補間方法がありますが、欠測値の取り扱いは研究の目的やデータの性質によります。

Multiple Inputationの具体的な手法を教えて下さい。

多重代入法（Multiple Imputation）は、欠測値の予測に基づいて、複数の異なる値で欠測値を補完する手法です。以下に具体的な手法をいくつか示します。

単一方程式回帰法：欠測がある変数を目的変数として、他の全変数から予測する回帰モデルを利用します。欠測値はこのモデルによって予測された値で補完されます。
予測平均一致法（Predictive Mean Matching, PMM）：欠測値を持つ対象の予測値に最も近い観測値を持つ対象から欠測値を補完します。これにより補完されたデータの分布が元のデータの分布をよく保つというメリットがあります。
Markov Chain Monte Carlo (MCMC) Method：ベイズ推定とマルコフ連鎖モンテカルロ（MCMC）サンプリングを使用して欠測値を補完します。この手法は複雑なデータ構造や多変量データに対しても適用可能です。
Fully Conditional Specification (FCS) or Multiple Imputation by Chained Equations (MICE)：各変数を順番に処理し、その変数の欠測値を他の変数に基づいて予測するモデルを用いて補完します。全変数に対してこのプロセスを繰り返します。この手法は相互に依存する複数の変数に対して有効です。

これらの手法の選択は、データの特性や欠測のパターン、分析の目的によります。多重代入法を適用するためには、専門的な統計的知識やソフトウェア（例えばRやPython、SAS、SPSSなど）が必要となることが多いです。

Rubinの多重代入法について教えて下さい。

Rubinの多重代入法は、欠測データ問題を解決するための統計的手法であり、欠測値を複数回代入して複数の完全なデータセットを生成し、それらを使用して結果を分析し、最後にその結果を統合するという手順を取ります。

具体的なステップは以下の通りです：

欠測値の代入：最初に、欠測値を補完するための適切な統計モデルを選択します。このモデルは、欠測がある変数を目的変数とし、他の全変数を予測変数とする回帰モデルであることが多いです。そして、このモデルを用いて欠測値を予測し、それを元のデータに代入します。
代入の繰り返し：欠測値を代入するプロセスを複数回（通常は5回から10回）繰り返します。各繰り返しで、予測された値はランダムなエラーを含むため、異なるデータセットが生成されます。
各データセットでの分析：それぞれの補完されたデータセットについて、目的の統計分析を行います。
結果の統合：最後に、各データセットから得られた結果を統合します。これにより、最終的な推定値とその不確実性が求まります。

Rubinの多重代入法は、欠測値の不確実性を考慮する能力があり、それがその主要な利点とされています。しかし、欠測データのパターンの理解、代入モデルの選択、そして結果の適切な統合は専門的な統計的知識を必要とします。また、計算負荷が高く、大量のデータに対する実装は難しくなることがあります。

Markov Chain Monte Carlo (MCMC) Methodについても教えて下さい。

マルコフ連鎖モンテカルロ法（Markov Chain Monte Carlo, MCMC）は、複雑な確率分布からの乱数生成や高次元の積分計算に使用される統計的手法であり、ベイズ統計学の文脈でよく使用されます。

MCMC法は、マルコフ連鎖というランダムな過程を用いて、特定の確率分布からのサンプルを生成します。生成されたサンプルは、目標とする分布に従います。これにより、複雑な分布に対しても期待値や分散といった統計量を近似的に計算することが可能になります。

具体的には、次のような手順で行われます：

初期値の設定：まず、パラメータの初期値をランダムまたは任意に設定します。
新しいサンプルの提案：現在のサンプルに基づいて新しいサンプルを提案します。この提案は通常、一部のパラメータをランダムに変更することで行われます。
提案の受容または拒否：提案された新しいサンプルが目標分布により近い場合、それを受け入れます。そうでない場合、ある確率で受け入れます。これにより、目標分布に近いサンプルがより頻繁に生成されるようになります。
繰り返し：上記のステップを多数回（数千回から数百万回）繰り返します。初期のサンプルは目標分布を正確に反映していない可能性があるため、ある数の初期サンプル（バーンイン）は通常、結果から除外されます。

欠測データの補完にMCMC法を使用する場合、欠測値が含まれる確率モデルを設定し、そのモデルに基づいて欠測値を補完します。欠測値がランダムに発生すると仮定した場合、MCMC法はその不確実性を取り扱う効果的な方法となります。

しかし、MCMC法の実行は計算量が大きく、また適切なモデルの設定や収束の確認など、専門的な統計的知識を必要とします。

予測平均一致法（Predictive Mean Matching, PMM）をRで実行する場合のスクリプトを知りたいです。

予測平均一致法（Predictive Mean Matching, PMM）は、Rの「mice」パッケージを用いて実行することができます。miceパッケージは、欠測データ補完（特に多重代入）のための強力なツールであり、PMMなど様々な方法を提供しています。

以下に、miceパッケージを用いたPMMの使用例を示します：

miceパッケージのインストール

if (!require("mice")) {
install.packages("mice")
}
library(mice)

データセットの準備（ここではmtcarsデータセットを使用します）

data("mtcars")

データセット内の一部の値をNAにする（欠測データの作成）

mtcars$mpg[sample(1:nrow(mtcars), 5)] <- NA

mice関数で欠測データを補完

method引数に"pmm"を指定することでPMMを使用

imputed_data <- mice(mtcars, method="pmm", m=5)

補完されたデータの確認

completed_data <- complete(imputed_data)

このスクリプトでは、mice関数のmethod引数に"pmm"を指定してPMMを使用しています。m引数は多重代入の回数を指定します。ここでは5回の多重代入を行っています。

また、欠測データが存在する変数ごとに異なる補完方法を指定することも可能です。例えば、以下のように指定することができます：

それぞれの変数に対する補完方法を指定

imp_method <- make.method(mtcars)
imp_method["mpg"] <- "pmm" # mpg変数に対してはPMMを使用
imp_method["hp"] <- "norm" # hp変数に対しては正規分布を仮定した補完を使用

mice関数で欠測データを補完

imputed_data <- mice(mtcars, method=imp_method, m=5)

miceパッケージは非常に柔軟性が高く、さまざまな欠測データ補完方法を提供しています。詳細なオプションや使用方法については、miceパッケージの公式ドキュメンテーションをご覧ください。

この記事が気に入ったらサポートをしてみませんか？