見出し画像

データを集めるときの「よくある落とし穴」「注意点」

どうも、エアコンは常につけっぱなしのTakashiです。

今回はデータを集める際の「よくある落とし穴」「注意点」について説明します。失敗しないようにデータを集める前にこれらの点に注意して計画や設計などを行いましょう。



データを集める期間について

いつ時点のデータ?

例えば、2000年1月1日のコンビニの売り上げデータ。この日だけ取得できるデータ。

いつからいつまでのデータ?

例えば、2000年1月1日 ~ 2000年12月31日のコンビニの売り上げデータ。この1年間のデータ。

どちらも2000年のデータで、割と混同しそうなのですが全く別物のデータです。

よく1日分のデータを見比べるなんてこともあると思います。上記でいうとある地点だけを起点としたデータなのか、一年間のデータの平均値なのかでデータの解釈が丸で違います。うっかりミスしてしまいがち、あるいは誘導されがちなので注意しましょう。「2000年の時の一日の売り上げってどれくらい?」という質問に対して「2000年1月1日の売り上げデータ」だけを見て答えるなんてことはしないでしょう。寧ろ元旦という特殊な状況下のデータですもんね。

ちなみにこれは過去のデータについてですが、未来のデータについても一緒です。自分が今からやろうとする目的に沿って、1地点だけのデータでいいのか、ある期間の平均が必要なのかはしっかり見極めましょう。



一回限りか?やり直しできるか?

一回限り

例えば、2000年のクリスマスのある商品の売り上げデータ。2000年のクリスマスは今後二度とやってこないので一回限りです。


期間内なら何度でも取得できる

例えば、2000年のクリスマスのある商品を買った顧客に対するアンケート。当日は何回であってもできます。


無制限(半永久的)に取得できる

例えば、2000年のクリスマスのある商品の長さと重さの測定データ。商品が存在する限り何回も測り直しできます。


一回限りは本当に一回限りなのでやり直しが効かないです。しっかり計画や設計を練りましょう。ここら辺はシステム開発との違いですね。プログラムは失敗してもやり直せるけど、調査やデータ収集は一回限りということもザラにあります。



恣意性が入らないか?

質問の仕方

例えば、「○○を1~5で評価してください」というようなデータ。回答者の主観が入るのでバイアスなどを考慮する必要があます。アンケートなどでも「すごくよい」「よい」「ふつう」「わるい」「すごくわるい」という選択肢だと、回答者は「ふつう」の中庸な回答を選びがちです。また両端の「すごく」は選ばれにくいです。ただし、仮に「よい」「わるい」の二択にすると本来「ふつう」と選択していた人も「よい」を選択してしまいがちです。回答者の本当の考えを掬い取るのは意外と難しいです。


自動で取得する

例えば、何かセンサーなどを使用する、データの取得を意識せずに何かの作業をしている副産物として得られるデータなど
 一番恣意性の低いデータを取得できるが、装置の性質や作業者の癖やその他外的要因で本来取得できるデータが一定の歪みを持ってしまわないように注意です。


集団の特性

例えば日本人と外国人、大人と子供、性別、年代、出身地など、個人以外は絶対に何かの集団なので上げるとキリが無いです。データをどの集団から集めるかというのもとても重要です。集団に対しての質問の仕方、言い回し、時期、内容など考慮する点は多々あります。前回別の集団に対して成功した方法が今回の集団でも成功するとは限りません。まずは対象となる集団の特性をしっかりと理解した上で効率よくデータを収集する方法を検討しましょう。回数を重ねてノウハウになるといいですね。
 また解析や集計を行った際にデータから読み取れる事実が「その集団の特性によるものなのかどうか」を切り分けることがよくあります。そのための一歩として、計画や設計の段階でおそらくこの集団からはこういうデータが上がってくるというのを考慮して収集し、集計や解析の際に切り分けが行えるようにしておきましょう。


以上、「データを集めるときの注意点」で特に気になる点でした。失敗しないようにしっかり注意しましょう。

この記事が気に入ったらサポートをしてみませんか?