見出し画像

データを「クリーニング」するってどういうこと?

研究をするために調査をしてデータを手に入れたら、すぐに統計ソフトで高度な解析ができる、というイメージを持っていませんか?だって、データはあるわけだし、あとは解析して結果を出すだけ、ですよね…。

いやいや、そうではないんです。データは「データクリーニング」の作業をしないと使えるようにはならないものなんですよ。と説明したら「『データクリーニング』ってなんですか?」と聞かれたこともあります。

今回は、データを解析する前に研究者がどんなことをしているのか、紹介します。


●データをクリーニング?

クリーニングって、汚れたものをきれいにして使える状態にすることですよね。「データクリーニング」の「クリーニング」もだいたいそういう意味で使っています。ただちょっと違うのは、データは汚れたわけではなくて、最初が「きれいじゃない」状態なんです。調査して収集したデータはそのまま解析ソフトでデータ解析しようと思っても、そのソフトが間違えて読んだり、ソフトがそのまま読んでしまったらうまく解析できなかったりする「きれいじゃない」状態なのです。それを、データ解析ソフトで解析できるように「きれい」にするのがデータクリーニングの作業です。

●これがデータだ!

どんなふうにきれいじゃないのか、説明していきますね。その前に、新しく調査したデータは、作ったばかりのときはたとえばこんなふうになっていることを、図で示します(図1)。このデータというのはもともと、対象者さんが回答してくれた質問票の回答内容からできあがります。紙の質問票に書かれていたり、ウェブの質問票に入力されたりしたものを、エクセルなどの表計算ソフトを使って、すべての対象者さんの回答内容の一覧表に仕上げたものです。多くの場合、一番左に個人別のID番号が示されていて、その人の回答内容が1行に示されている形になります。その調査の対象者さんの数の分だけ行数がある形です。そして、各列にひとつの項目の内容がデータ化されています。質問項目が多ければ、右に長くなっていきます。

図1. データのイメージ図

●欠損値を発見!

図1のデータを見ると、たとえば緑色の色をつけたところ(セル)があります。数値が何も入っていないですよね。欠損値です。さて、この欠損値、どういう意味だと思いますか?対象者の人が回答し忘れたのでしょうか。それとも、質問票から表計算ソフトにデータを入力するときに、入力者が入れ忘れたのでしょうか。原因が色々考えられます。そこで、質問票には実際に何と書いてあったのか、本当に欠損なのか、確認する必要があります。紙の質問票の内容をパソコンでソフトに入力するときには手作業の場合も多いので、入力もれの可能性は十分にあります。機械で質問票を読み込んだときには、文字が薄くて読み取れなかったのかもしれません。ウェブの質問票を使うときには、入力された内容を表計算ソフトにそのまま転記することが多く、間違いは起こりにくいですが、それでもその転記のプログラムにミスがあれば、正しくデータ化されていないかもしれません。可能性は色々考えられるので、思ったようなデータが手に入っていない場合には、その原因をつきとめて、実際の回答内容のままのデータを作る必要があります。データ化する段階で間違いがあれば、データの捏造と同じことになりますから。

●どうデータ化する?

調べた結果本当に欠損値であることがわかったら、統計ソフトが「欠損である」と認識できるような入力の仕方をしておく必要があります。ある場合は「何も入力しない」ということになるでしょう。一方で、「確認したけれど本当に欠損だったよ」ということを意味するデータにしておきたいのであれば、欠損のままにせずに「99」を入れる、という規則を作って処理するのもよいと思います。複数のスタッフで一緒にデータクリーニングをするのであれば、こういった規則を作って同時並行でクリーニングする方法もあります。

●非論理値も発見!

また、図1の赤や青で色づけしたセルも見てみてください。エネルギー摂取量の項目ですが、青のセルは1日あたりの摂取量が500 kcal未満で少なすぎます。逆に赤のセルは5000 kcal以上で多すぎます。これらは、通常の生活を行っている人だと考えにくい摂取量です。このような非論理値を確認しながら、欠損のときと同じように、回答されたデータに間違いはないのか、確認します。確認しながら、実際のデータ解析のときには、こういった非論理値を示した対象者のデータは除外しよう、ということを心で決めていくことも同時にしていきます。

●時にはデータ修正もあり

また、確認作業の中で、非論理値を論理値に修正することもあります。たとえば、身長が16.1 cmと入力されていた場合、どうしましょうか?質問票の身長の記入欄が□□□.□cmとなっていた場合、本当は左詰めで161.0 cmと書くべきだったところを、この対象者さんは右詰めで、ゼロを省略して書いた可能性があります。このように想像できる場合には、「身長の値を10倍して非論理値が論理値になる場合には回答内容を10倍してデータ化する」という規則を作って対応するようにします。大事なことは、この規則を対象者全体に使うことです。誰かのデータだけにしてはデータの状態がばらついてしまい、一貫したデータになりませんから。対象者の人の回答内容そのままにはなりませんが、こうして修正することで、使い物にならないデータを使えるデータにしていくことも、せっかく回答してくださった人のために、大事なことです。

●まとめ

データは手にしてすぐに解析できるわけではありません。その前にするべきことが本当にたくさんあって、データクリーニングはそのひとつです。質問票に回答された内容が正しくデータ化されるように、確認し、非論理値を修正する作業が必要です。研究者はときにはデータクリーニングのために、データを一つずつ目視で確認したり、質問票を1ページずつめくったりしながら、作業を進めていくのです。

調査した後にデータが使えるようになるには、もっとたくさんの工程が必要です。今後、調査を進めるとき、データを整えるときなど、様々な研究の裏側を紹介していきますね。

そんな作業を経て、最終的に出すことができた「研究結果」というのが、たとえばこんな形になります。


【メールマガジン】
信頼できる食情報かを見きわめるための10のポイント
をお伝えしています。ぜひご登録ください!
  https://hers-m-and-s.com/p/r/sPWrxMBU


すべての100歳が自分で食事を選び食べられる社会へ。

一生で味わう10万回の食事をよりよい食習慣作りの時間にするための
お手伝いをしていきます。

また読みにきてください。
記事がよかったら「スキ」リアクションをお願いします!
励みになります!


【食情報・健康栄養情報を見きわめるためのコツ】

この5つのステップで、信頼できる食情報・健康情報の候補を簡単に抽出できます。

この記事が気に入ったらサポートをしてみませんか?