データクレンジングはお好きですか?
久方ぶりにデータ分析の話です。
データ分析は分析自体が大変だと思われがちです。
でもほんとうに大変かつ、あくまで主観ですが大事なのはその手前の作業です。
手前の作業とはなにか?
それはデータクレンジングと呼ばれている作業です。
今日はデータクレンジングに思うところを書いてみます。
データクレンジングとは?
データ分析に着手するためには、データが必要となります。
データをいただくところから分析は開始します。
ですが、いただいたデータをそのまま使えるかというとそうでもないのです。
料理をするときに、材料を洗ったり、皮を向いたり、食べやすいサイズに切ったりするように、下ごしらえをしますよね。
データ分析でも下ごしらえとしてデータクレンジングを行います。
いただいたデータから分析できる形に整形したり、いらない情報を省いたりといった作業を行います。
なぜデータクレンジングが大切なのか?
ほぼ前段で考えを書いてしまったのですが、下ごしらえがきちんとできていないデータを分析しても、期待した結果が得られないのです。
お料理でもきちんと下ごしらえしたり、灰汁を取ったり、だし汁を丁寧に煮出すことでおいしくできあがります。
これと同じで、データクレンジングをしっかりきちんと丁寧に行えていないと、その先にある分析作業はうまく進みません。
時には下ごしらえからやり直しになります。(実際にそういう現場に何度も遭遇してきました。)
ひどいときには下ごしらえからやり直し、すべての料理を作り直す、すなわちデータ分析をすべてやり直すということもあります。(実際にそういう現場に何度も遭遇してきました。)
食べ物を無駄にするのとは違いますが、下ごしらえができていないと、時間というリソースの無駄遣いになります。
お料理と同じく、手に入れたデータという素材を、どういう順番でどのように整えて、実際の調理に持ち込めるかが大切なのです。
データクレンジングはお好きですか?
データ分析界隈の人とお話すると、ときどきデータクレンジングが苦手またはあまり好きじゃないというかたがいらっしゃいます。
でも、それってあらかじめ下ごしらえされた材料を使った料理しか作れないことだと思うのです。それでもおいしい料理は作れるのですが。
でも本当に作りたい料理を思い描くと「こういう味にしたい」とか思ったら、素材から下ごしらえできるようになっていたほうがいいと思うんですよねぇ。。。
だからデータクレンジングは厭わず、嫌わずにやっていくといいんじゃないかしらと思うのでした。
コツがあるわけではないのですが、今後データクレンジングで心がけていることを書いてみようと思います。
最後までお読みいただきありがとうございました。