【読書メモ】欠測データの扱い方:『欠測データの統計科学』(高井啓二・星野崇宏・野間久史著)
ある時点(T1)と次の時点(T2)とでの変化を見るための定量的な縦断調査では、T1では答えてくれたけれどT2では答えてくれなかったというようにデータ取得できないケースが生じます。ここで問題となることが欠測データをどのように扱うかです。欠測データの扱い方について書籍を読んでみてポイントをまとめてみますが、あくまで現時点での私の理解なのでだいぶ訝ってお読みいただけるとありがたいですし、誤っている箇所があれば忌憚なくご指摘いただけると大変ありがたいです。
欠測データメカニズムの三分類
定量調査でデータの欠測が生じる背景を理解することは、データの扱い方を正しく行うために必要なものです。本書の17頁では、その区分について三つに分けて解説されています。
①完全にランダムな欠測(Missing Completely At Random:MCAR)
欠測が完全にランダムに発生しており、モデリングの対象となる変数および関連する変数に依存しない場合のもの。
②ランダムな欠測(Missing At Random:MAR)
欠測するかどうかの確率が観測値には依存するが、欠測値には依存しない場合のもの。
③ランダムでない欠測(Not Missing At Random:NMAR)
欠測するかどうかの確率が欠測値にのみ依存する場合のもの。
縦断調査での結束データの取り扱い
社会人に対する大規模な心理統計調査において、T1では回答してくれたのにT2では未回答だったというような欠測データが生じるのは、上記の分類で言えばMCARであることが多いのではないでしょうか。
こうしたケースは脱落としてみなされ、使われないデータとして扱われます。同じようなことは『不完全データの統計解析』(岩崎学著)でも言われています。
『不完全データの統計解析』はオススメではありますが、数式がガンガン出てくるので数学が得意でない方は読まない方が良いかもです。私も、関連するところしか読めてません。
この記事が気に入ったらサポートをしてみませんか?