【読書メモ】不完全データの統計解析:『欠損データ処理』(高橋将宜・渡辺美智子著)第2章
アンケートを配って回答者に答えてもらう、という形式の調査を行うと、設問に対して未回答となる欠測データが生じることがあります。こうしたデータの特徴と、それを統計的にどのように処理するのかについて、『欠損データ処理』の第2章では書かれています。量的調査を行う上で必要不可欠な欠測データの対応について学べるテクストです。
欠測データの問題
無回答には、①全ての設問への回答がなされていない全項目無回答と、②一部の設問への回答が欠けている一部項目無回答という二つのタイプがあります。いずれのタイプであっても、欠測データがもたらす問題には三つのものがあるようです。
統計的計算処理が不可能になる
リストワイズ除去等によってデータを擬似的に完全な状態にすることで対応はできる。(リストワイズ除去しても)分析結果に偏りが生じるリスクがある
分析結果の効率性と精度が下がるリスクがある
というわけで、欠測データへの対応をこの後にまとめますが、なるべく少なくするための工夫が重要である、ということが言えそうです。
欠測が起きるメカニズム
欠測には三つのメカニズムがあると本章では紹介されています。まず、①MCAR(Missing Completely At Random)は完全に無作為な欠測のことで、「ある値の欠測する確率が、その対象のデータと無関係であること」(16頁)を意味しています。
次に、②MAR(Missing At Random)は、「データを条件とした欠測の条件付き確率が、観測データを条件とした欠測の条件付き確率に一致すること」(16頁)です。①MCARは②MARに包含される関係であると言えます。
また、③NMAR(Not Missing At Random)というものがあり、こちらは「ある値の欠測する確率がその変数の値自体に依存しており、かつ、観測データを条件にしてもこの関係を崩すことができないこと」(17頁)を意味します。
代入法による対応
MAR(MCARを含む)については、代入法という欠測の処理ができます。代入法とは、「欠測地を何らかの値で置き換えて、欠測の穴を埋めた上でデータを擬似的に完全な状態とする方法」(22頁)です。
NMARについては代入法を適用できず、処理方法が複雑になります。このMARとNMARとの相違は、0と1の差ということではなく程度の差として理解するべきであると著者たちはしています。この辺りは、実践的に学んでいくことが必要なのかもしれません。
この記事が気に入ったらサポートをしてみませんか?